prml revenge7.1.1
TRANSCRIPT
![Page 1: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/1.jpg)
PRML 復々習レーン7.1.1-7.1.2
@risuoku
1
![Page 2: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/2.jpg)
重なりのあるクラス分布
• 誤分類を許す
• 汎化能力は十分優れている(状況による)
2
![Page 3: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/3.jpg)
スラック変数とソフトマージン
⇒ソフトマージンへの緩和
3
![Page 4: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/4.jpg)
スラック変数とソフトマージン
⇒ソフトマージンへの緩和正分類・マージンの外側もしくは上
4
![Page 5: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/5.jpg)
スラック変数とソフトマージン
⇒ソフトマージンへの緩和正分類・マージンの内側
5
![Page 6: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/6.jpg)
スラック変数とソフトマージン
⇒ソフトマージンへの緩和誤分類
6
![Page 7: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/7.jpg)
ソフトマージンSVMの最適化
7
![Page 8: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/8.jpg)
色々と変形すると、結局(7.32)-(7.34)が必要になる
※変形の手順
― (7.21)を最小化するためのラグランジュ関数が(7.22)― KKT条件が(7.23)-(7.28)― 停留条件を変形すると(7.29)-(7.31)― これらを組み合わせることで(7.32)-(7.34)を得る
8
![Page 9: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/9.jpg)
訓練した結果の解釈
9
![Page 10: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/10.jpg)
ν-SVM
• 式(7.38)-式(7.41)
• ソフトマージンSVMと等価
• パラメータνが、訓練データ全体に占めるマージン誤差の割合の上限orサポートベクトルの割合の下限と解釈できる
10
![Page 11: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/11.jpg)
SVMの訓練
• パラメータを学習する段階ではサポートベクトルだけでなく、全ての訓練データが必要
• 実用上は、SVMの二次計画法を効率的に解くアルゴリズムが必要
– チャンキング(Vapnik, 1982)
– 分解法(Osuna et al., 1996)
– 逐次最小問題最適化法(SMO)(Platt, 1999)
11
![Page 12: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/12.jpg)
Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines (Platt, 1998) より引用
• 基本的に、どの手法も小さい部分問題を順に解く• 部分問題の選び方が手法ごとに異なる• 最近はSMOが主流
12
![Page 13: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/13.jpg)
逐次最小問題最適化法(SMO)
• 一度に解く部分問題の変数の数が2個
• 分解法の特別な場合(分解法では、変数の個数を何かの値に決めておく)
• 計算効率が良い
• Working Set Selection(WSS) ⇒ libsvmのドキュメント参照
13
![Page 14: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/14.jpg)
その他の話題
• 次元の呪い
– カーネル関数は、特徴ベクトルの内積
– 入力より大きな次元を扱えるように見えるが、そうではない
• 確率の計算
– SVMを大きな確率的な予測システムの一部として用いる場合、出力値として確率が必要
– 訓練済みのロジスティックシグモイド関数をSVMの出力に適用(Platt, 2000)
14
![Page 15: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/15.jpg)
ヒンジ形誤差関数
15
![Page 16: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/16.jpg)
ロジスティックシグモイド関数による誤差関数
16
![Page 17: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/17.jpg)
全ての訓練データの尤度:
“尤度最大”⇔”負の対数尤度最小”
正則化項を加えると、(7.47)(7.48)を得る
17
![Page 18: Prml revenge7.1.1](https://reader033.vdocuments.mx/reader033/viewer/2022050907/55a2ba331a28ab355f8b45f2/html5/thumbnails/18.jpg)
ロジスティック回帰との関係
• ヒンジ形⇒損失ゼロ• シグモイド関数⇒多
少の損失あり
18