prml revenge7.1.1

PRML 復々習レーン7.1.1-7.1.2

@risuoku

1

重なりのあるクラス分布

• 誤分類を許す

• 汎化能力は十分優れている（状況による）

2

スラック変数とソフトマージン

⇒ソフトマージンへの緩和

3


⇒ソフトマージンへの緩和正分類・マージンの外側もしくは上

4


⇒ソフトマージンへの緩和正分類・マージンの内側

5


⇒ソフトマージンへの緩和誤分類

6

ソフトマージンSVMの最適化

7

色々と変形すると、結局(7.32)-(7.34)が必要になる

※変形の手順

― (7.21)を最小化するためのラグランジュ関数が(7.22)― KKT条件が(7.23)-(7.28)― 停留条件を変形すると(7.29)-(7.31)― これらを組み合わせることで(7.32)-(7.34)を得る

8

訓練した結果の解釈

9

ν-SVM

• 式(7.38)-式(7.41)

• ソフトマージンSVMと等価

• パラメータνが、訓練データ全体に占めるマージン誤差の割合の上限orサポートベクトルの割合の下限と解釈できる

10

SVMの訓練

• パラメータを学習する段階ではサポートベクトルだけでなく、全ての訓練データが必要

• 実用上は、SVMの二次計画法を効率的に解くアルゴリズムが必要

– チャンキング（Vapnik, 1982）

– 分解法（Osuna et al., 1996）

– 逐次最小問題最適化法（SMO）（Platt, 1999）

11

Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines (Platt, 1998) より引用

• 基本的に、どの手法も小さい部分問題を順に解く• 部分問題の選び方が手法ごとに異なる• 最近はSMOが主流

12

逐次最小問題最適化法（SMO）

• 一度に解く部分問題の変数の数が２個

• 分解法の特別な場合（分解法では、変数の個数を何かの値に決めておく）

• 計算効率が良い

• Working Set Selection(WSS) ⇒ libsvmのドキュメント参照

13

その他の話題

• 次元の呪い

– カーネル関数は、特徴ベクトルの内積

– 入力より大きな次元を扱えるように見えるが、そうではない

• 確率の計算

– SVMを大きな確率的な予測システムの一部として用いる場合、出力値として確率が必要

– 訓練済みのロジスティックシグモイド関数をSVMの出力に適用（Platt, 2000）

14

ヒンジ形誤差関数

15

ロジスティックシグモイド関数による誤差関数

16

全ての訓練データの尤度：

“尤度最大”⇔”負の対数尤度最小”

正則化項を加えると、(7.47)(7.48)を得る

17

ロジスティック回帰との関係

• ヒンジ形⇒損失ゼロ• シグモイド関数⇒多

少の損失あり

18

prml revenge7.1.1

Documents