情報幾何勉強会 emアルゴリズム
TRANSCRIPT
2016/02/16 情報幾何勉強会情報幾何学の新展開:12章
隠れ変数のあるモデル : emとEMアルゴリズム,
非忠実なモデル,Bayes統計
担当: 品川 政太朗(知能コミュニケーション研究室)
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST 1/18
2016/2/16
今回の勉強会の目標
EMアルゴリズムの情報幾何的解釈を理解する
隠れ変数を持つ他の統計モデルとの関連を概観する
情報幾何勉強会の(今年度の)目標
2016ⒸSeitaro Shinagawa AHC-lab NAIST
情報幾何と機械学習の関わりについて概観する
2/18
2016/2/16
1. EMアルゴリズム
2. 情報幾何からみたEMアルゴリズム
3. まとめ
4. 参考文献
Index
2016ⒸSeitaro Shinagawa AHC-lab NAIST 3/18
2016/2/16
1. EMアルゴリズム
2. 情報幾何からみたEMアルゴリズム
3. まとめ
4. 参考文献
Index
2016ⒸSeitaro Shinagawa AHC-lab NAIST 4/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
はじめに:EMアルゴリズムとは隠れ変数(潜在変数)をもつ確率モデルの最尤解を求めるための一般的手法 (ボルツマンマシンの学習、誤差逆伝搬法にもEMが現れる)
EMアルゴリズム
可視変数(観測データ) 𝑿 = 𝒙(1), ⋯ , 𝒙(𝑛) , 隠れ変数 𝒁
パラメータを初期化𝜽𝑜𝑙𝑑 = 𝜽𝑖𝑛𝑖while:
Eステップ:𝑝(𝒁|𝑿; 𝜽𝑜𝑙𝑑)を計算
Mステップ:𝑄 𝜽, 𝜽𝑜𝑙𝑑 = 𝒁𝑝(𝒁|𝑿;𝜽𝑜𝑙𝑑) ln 𝑝(𝑿, 𝒁; 𝜽)𝜽𝑛𝑒𝑤 = argmax
𝜃𝑄(𝜽, 𝜽𝑜𝑙𝑑)
if(収束条件): break
else: 𝜽𝑜𝑙𝑑 ← 𝜽𝑛𝑒𝑤
Eステップ可視変数、パラメータ固定で事後分布を計算
Mステップ可視変数、隠れ変数固定でパラメータを更新
1. EMアルゴリズム
5/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
なぜEステップでは事後分布を計算するのか
変分下限による説明を試みる
まず𝑄𝑖(𝒛(𝑖))を隠れ変数の任意の分布とする
対数尤度
𝑖
log 𝑝(𝒙 𝑖 ; 𝜽) =
𝑖
log 𝑝(𝒙 𝑖 , 𝒛 𝑖 ; 𝜽) 𝑑𝒛(𝑖)
≥
𝑖
𝑄𝑖 𝒛𝑖 log
𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽
𝑄𝑖(𝒛(𝑖))
𝑑𝒛(𝑖)
Jensenの不等式log 𝔼 𝑥 ≥ 𝔼 log(𝑥)
𝑦 = log(𝑥)
𝔼 𝑥
log(𝔼 𝑥 )
𝔼 log(𝑥)
パラメータ固定だったらどのような𝑄𝑖(𝑧(𝑖))を選べば変分下限は最大となるか?
=
𝑖
log 𝑄𝑖(𝒛(𝑖))
𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽
𝑄𝑖(𝒛(𝑖))
𝑑𝒛(𝑖)
変分下限
1. EMアルゴリズム
6/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
答え:事後分布 𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)
𝐷𝐾𝐿 𝑄𝑖 𝒛𝑖 ||𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽
= 𝑄𝑖 𝒛𝑖 log
𝑄𝑖(𝒛(𝑖))
𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽𝑑𝒛(𝑖)
= 𝑄𝑖 𝒛𝑖 log
𝑄𝑖(𝒛(𝑖))𝑝 𝒙 𝑖 ; 𝜽
𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽𝑑𝒛(𝑖)
= − 𝑄𝑖 𝒛𝑖 log
𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽
𝑄𝑖 𝒛𝑖
𝑑𝒛 𝑖 + 𝑄𝑖 𝒛𝑖 log 𝑝(𝒙 𝑖 ; 𝜽) 𝑑𝒛(𝑖)
= − 𝑄𝑖 𝒛𝑖 log
𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽
𝑄𝑖 𝒛𝑖
𝑑𝒛 𝑖 + log𝑝(𝒙 𝑖 ; 𝜽)
∴ log 𝑝(𝒙 𝑖 ; 𝜽) = 𝑄𝑖 𝒛𝑖 log
𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽
𝑄𝑖 𝒛𝑖
𝑑𝒛 𝑖 + 𝐷𝐾𝐿 𝑄𝑖 𝒛𝑖 ||𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽
※本来の導出はちょっと分かりませんでした。(参考:次ページ)
確認
変分下限 𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)で 0
log 𝑝(𝒙 𝑖 ; 𝜽)
𝐷𝐾𝐿 → 0
(PRML Fig 9.11,12より)
1. EMアルゴリズム
7/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
http://cs229.stanford.edu/notes/cs229-notes8.pdfによると
𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)となる理由
1. EMアルゴリズム
8/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
Mステップの計算
𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽
𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)𝑑𝒛 𝑖
= 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log 𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽 𝑑𝒛 𝑖 − 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) 𝑑𝒛 𝑖
変分下限
𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)を代入して、
定数
(PRML Fig 9.13より)
𝐷𝐾𝐿𝑛𝑒𝑤
log 𝑝(𝒙 𝑖 ; 𝜽𝑛𝑒𝑤)
完全データの期待値→勾配法で計算𝜽𝑛𝑒𝑤 = argmax
𝜃𝑄(𝜽, 𝜽𝑜𝑙𝑑)
𝜽𝑜𝑙𝑑 ← 𝜽𝑛𝑒𝑤
Eステップ、Mステップは対数尤度を単調に増加させる
1. EMアルゴリズム
9/18
2016/2/16
1. EMアルゴリズム
2. 情報幾何からみたEMアルゴリズム
3. まとめ
4. 参考文献
Index
2016ⒸSeitaro Shinagawa AHC-lab NAIST 10/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
emアルゴリズム(exponential-mixture)
2. 情報幾何からみたEMアルゴリズム
双対平坦な多様体Sに含まれる2つの部分多様体D,Mについて最近接点を求めるアルゴリズム
双対平坦 : 曲がった空間Sで直線の概念を定義するのに必要
多様体S : n次元の点の集合,ここでは確率密度関数
(赤穂昭太郎, 情報幾何で見る機械学習, p11)
確率密度関数のパラメータの空間はユークリッド空間ではない
𝜇1 = 1, 𝜇2 = 4, 𝜎1 = 2, 𝜎2 = 1のとき,
𝐷𝐾𝐿(𝐴| 𝐵 = 2𝐷𝐾𝐿(𝐶| 𝐷 = 8
A-B,C-D間でKLダイバージェンスが異なる⇒空間が“曲がっている”
𝟐
𝟖
11/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
emアルゴリズム
2. 情報幾何からみたEMアルゴリズム
双対平坦な多様体Sに含まれる2つの部分多様体D,Mについて最近接点を求めるアルゴリズム
(テキストp126)
D:観測データの多様体(データが指定する分布)M:確率モデルの多様体(同時分布) と思って見てください
Mのある一点について最近接点となるDの一点を求める(M→Dの射影)
Dのある一点について最近接点となるMの一点を求める(D→Mの射影)
12/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
emアルゴリズム
2. 情報幾何からみたEMアルゴリズム
双対平坦な多様体Sに含まれる2つの部分多様体D,Mについて最近接点を求めるアルゴリズム
(テキストp126)
D:観測データの多様体(データが指定する分布)M:確率モデルの多様体(同時分布) と思って見てください
Mのある一点について最近接点となるDの一点を求める(M→Dの射影)
Dのある一点について最近接点となるMの一点を求める(D→Mの射影)
13/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
EMアルゴリズム(expectation-maximization)
2. 情報幾何からみたEMアルゴリズム
• 変数𝒙 = (𝒚, 𝒛)で与えられる確率分布全体の空間を𝑆 = {𝑝(𝒚, 𝒛)}とする• パラメータ𝝃で指定されるモデル多様体Mは𝑀 = {𝑝(𝒚, 𝒛, 𝝃)}とする• 観測データによる分布を 𝑞(𝒚)とする(経験分布とする)
データ多様体Dは任意の分布を𝑞(𝒛|𝒚)として
𝐷 = { 𝑞 𝒚 𝑞 𝒛 𝒚 ; 𝑞(𝒛|𝒚)は任意} (12.8)
𝑞 𝒚, 𝒛 =1
𝑛 𝑖 𝛿(𝒚 − 𝒚𝑖)𝑞 𝒛 𝒚𝒊 (12.9)
𝐿 𝑞 𝒛 𝒚 , 𝝃 = 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒚 𝑞 𝒛 𝒚
𝑝(𝒚, 𝒛, 𝝃)𝑑𝒚𝑑𝒛 (12.10)
(iは観測データ番号)
𝑫𝑲𝑳(𝑫||𝑴)
観測データが多数の場合(𝒚1, 𝒚2, ⋯ , 𝒚𝑛)では
観測できるのはデータ多様体の方なので、DとMのKLダイバージェンスを考える
14/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
𝐿 𝑞 𝒛 𝒚 , 𝝃 = 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒚 𝑞 𝒛 𝒚
𝑝(𝒚, 𝒛, 𝝃)𝑑𝒚𝑑𝒛 (12.10)
これを最小にする 𝑞 𝒛 𝒚 , 𝝃はDとM間のダイバージェンスを最小にする最近接点
𝐷𝐾𝐿 𝑞 𝒚 𝑞||𝑝 𝒚, 𝒛, 𝝃
= [ 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒛 𝒚 𝑑𝒛
𝐷𝐾𝐿 𝑞 𝒚 𝑞||𝑝 𝒚, 𝒛, 𝝃
− 𝑞 𝒚 𝑞 𝒛 𝒚 𝑝 𝒚, 𝒛, 𝝃 𝑑𝒛 + 𝑞 𝒚 log 𝑞 𝒚 ]𝑑𝒚
(12.11)
定理12.1: DとMのダイバージェンスを最小
にする 𝝃は,最尤推定に一致する
定理12.2: Mの一点からデータ多様体Dへのe-射影に対して,条件付き分布𝑞 𝒛 𝒚 は不変で,𝒛の条件付き期待値は元のものと同じになる
2. 情報幾何からみたEMアルゴリズム
15/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
まとめ
情報幾何学の立場からのEMアルゴリズムの解釈を試みた Eステップはモデル多様体の1点からデータ多様体の1点への射影だといえる(e-射影)
Mステップはデータ多様体の1点からモデル多様体の1点への射影だといえる(m-射影)
Eステップ、Mステップの繰り返しはデータ多様体とモデル多様体の最近接点を求めることに等しい
今回扱わなかった(踏み込まなかった)内容双対平坦(e-平坦,m-平坦),指数型分布族・混合型分布族ベイズ統計への応用
17/18
2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST
参考文献
甘利俊一,情報幾何の新展開,第3章,12章藤原彰夫,情報幾何学の基礎C.M.ビショップ,パターン認識と機械学習下, 第9章混合モデルとEM
赤穂昭太郎, 情報幾何で見る機械学習,
https://unit.aist.go.jp/airc/docs/seminar02-akaho.pdf
Andrew Ng, CS229 Lecture notes,
http://cs229.stanford.edu/notes/cs229-notes8.pdf
村田昇,池田思朗,神経回路網とEMアルゴリズムhttp://www.ism.ac.jp/~shiro/papers/books/embook2000.pdf
18/18