情報幾何勉強会 emアルゴリズム

2016/02/16 情報幾何勉強会情報幾何学の新展開：１２章

隠れ変数のあるモデル : emとEMアルゴリズム，

非忠実なモデル，Bayes統計

担当：品川政太朗(知能コミュニケーション研究室)

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST 1/18

2016/2/16

今回の勉強会の目標

EMアルゴリズムの情報幾何的解釈を理解する

隠れ変数を持つ他の統計モデルとの関連を概観する

情報幾何勉強会の（今年度の）目標

2016ⒸSeitaro Shinagawa AHC-lab NAIST

情報幾何と機械学習の関わりについて概観する

2/18

2016/2/16

1. EMアルゴリズム

2. 情報幾何からみたEMアルゴリズム

3. まとめ

4. 参考文献

Index

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3/18

2016/2/16



3. まとめ

4. 参考文献

Index


2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

はじめに：EMアルゴリズムとは隠れ変数（潜在変数）をもつ確率モデルの最尤解を求めるための一般的手法（ボルツマンマシンの学習、誤差逆伝搬法にもEMが現れる）

EMアルゴリズム

可視変数（観測データ） 𝑿 = 𝒙(1), ⋯ , 𝒙(𝑛) , 隠れ変数 𝒁

パラメータを初期化𝜽𝑜𝑙𝑑 = 𝜽𝑖𝑛𝑖while:

Eステップ：𝑝(𝒁|𝑿; 𝜽𝑜𝑙𝑑)を計算

Mステップ：𝑄 𝜽, 𝜽𝑜𝑙𝑑 = 𝒁𝑝(𝒁|𝑿;𝜽𝑜𝑙𝑑) ln 𝑝(𝑿, 𝒁; 𝜽)𝜽𝑛𝑒𝑤 = argmax

𝜃𝑄(𝜽, 𝜽𝑜𝑙𝑑)

if（収束条件）: break

else: 𝜽𝑜𝑙𝑑 ← 𝜽𝑛𝑒𝑤

Eステップ可視変数、パラメータ固定で事後分布を計算

Mステップ可視変数、隠れ変数固定でパラメータを更新


5/18


なぜEステップでは事後分布を計算するのか

変分下限による説明を試みる

まず𝑄𝑖(𝒛(𝑖))を隠れ変数の任意の分布とする

対数尤度

𝑖

log 𝑝(𝒙 𝑖 ; 𝜽) =

𝑖

log 𝑝(𝒙 𝑖 , 𝒛 𝑖 ; 𝜽) 𝑑𝒛(𝑖)

≥

𝑖

𝑄𝑖 𝒛𝑖 log

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑄𝑖(𝒛(𝑖))

𝑑𝒛(𝑖)

Jensenの不等式log 𝔼 𝑥 ≥ 𝔼 log(𝑥)

𝑦 = log(𝑥)

𝔼 𝑥

log(𝔼 𝑥 )

𝔼 log(𝑥)

パラメータ固定だったらどのような𝑄𝑖(𝑧(𝑖))を選べば変分下限は最大となるか？

=

𝑖

log 𝑄𝑖(𝒛(𝑖))



𝑑𝒛(𝑖)

変分下限


6/18


答え：事後分布 𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)

𝐷𝐾𝐿 𝑄𝑖 𝒛𝑖 ||𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽

= 𝑄𝑖 𝒛𝑖 log


𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽𝑑𝒛(𝑖)

= 𝑄𝑖 𝒛𝑖 log

𝑄𝑖(𝒛(𝑖))𝑝 𝒙 𝑖 ; 𝜽

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽𝑑𝒛(𝑖)

= − 𝑄𝑖 𝒛𝑖 log


𝑄𝑖 𝒛𝑖

𝑑𝒛 𝑖 + 𝑄𝑖 𝒛𝑖 log 𝑝(𝒙 𝑖 ; 𝜽) 𝑑𝒛(𝑖)

= − 𝑄𝑖 𝒛𝑖 log


𝑄𝑖 𝒛𝑖

𝑑𝒛 𝑖 + log𝑝(𝒙 𝑖 ; 𝜽)

∴ log 𝑝(𝒙 𝑖 ; 𝜽) = 𝑄𝑖 𝒛𝑖 log


𝑄𝑖 𝒛𝑖

𝑑𝒛 𝑖 + 𝐷𝐾𝐿 𝑄𝑖 𝒛𝑖 ||𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽

※本来の導出はちょっと分かりませんでした。（参考：次ページ）

確認

変分下限 𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)で０

log 𝑝(𝒙 𝑖 ; 𝜽)

𝐷𝐾𝐿 → 0

(PRML Fig 9.11,12より)


7/18


http://cs229.stanford.edu/notes/cs229-notes8.pdfによると

𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)となる理由


8/18

http://cs229.stanford.edu/notes/cs229-notes8.pdf


Mステップの計算

𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)𝑑𝒛 𝑖

= 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log 𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽 𝑑𝒛 𝑖 − 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) 𝑑𝒛 𝑖

変分下限

𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)を代入して、

定数

(PRML Fig 9.13より)

𝐷𝐾𝐿𝑛𝑒𝑤

log 𝑝(𝒙 𝑖 ; 𝜽𝑛𝑒𝑤)

完全データの期待値→勾配法で計算𝜽𝑛𝑒𝑤 = argmax

𝜃𝑄(𝜽, 𝜽𝑜𝑙𝑑)

𝜽𝑜𝑙𝑑 ← 𝜽𝑛𝑒𝑤

Eステップ、Mステップは対数尤度を単調に増加させる


9/18

2016/2/16



3. まとめ

4. 参考文献

Index



emアルゴリズム(exponential-mixture)


双対平坦な多様体Sに含まれる２つの部分多様体D,Mについて最近接点を求めるアルゴリズム

双対平坦 : 曲がった空間Sで直線の概念を定義するのに必要

多様体S : n次元の点の集合，ここでは確率密度関数

(赤穂昭太郎, 情報幾何で見る機械学習, p11)

確率密度関数のパラメータの空間はユークリッド空間ではない

𝜇1 = 1, 𝜇2 = 4, 𝜎1 = 2, 𝜎2 = 1のとき，

𝐷𝐾𝐿(𝐴| 𝐵 = 2𝐷𝐾𝐿(𝐶| 𝐷 = 8

A-B,C-D間でKLダイバージェンスが異なる⇒空間が“曲がっている”

𝟐

𝟖

11/18


emアルゴリズム



（テキストp126）

D：観測データの多様体（データが指定する分布）M：確率モデルの多様体（同時分布）と思って見てください

Mのある一点について最近接点となるDの一点を求める（M→Dの射影）

Dのある一点について最近接点となるMの一点を求める（D→Mの射影）

12/18


emアルゴリズム




D：観測データの多様体（データが指定する分布）M：確率モデルの多様体（同時分布）と思って見てください

Mのある一点について最近接点となるDの一点を求める（M→Dの射影）

Dのある一点について最近接点となるMの一点を求める（D→Mの射影）

13/18


EMアルゴリズム(expectation-maximization)


• 変数𝒙 = (𝒚, 𝒛)で与えられる確率分布全体の空間を𝑆 = {𝑝(𝒚, 𝒛)}とする• パラメータ𝝃で指定されるモデル多様体Mは𝑀 = {𝑝(𝒚, 𝒛, 𝝃)}とする• 観測データによる分布を 𝑞(𝒚)とする（経験分布とする）

データ多様体Dは任意の分布を𝑞(𝒛|𝒚)として

𝐷 = { 𝑞 𝒚 𝑞 𝒛 𝒚 ; 𝑞(𝒛|𝒚)は任意} (12.8)

𝑞 𝒚, 𝒛 =1

𝑛 𝑖 𝛿(𝒚 − 𝒚𝑖)𝑞 𝒛 𝒚𝒊 (12.9)

𝐿 𝑞 𝒛 𝒚 , 𝝃 = 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒚 𝑞 𝒛 𝒚

𝑝(𝒚, 𝒛, 𝝃)𝑑𝒚𝑑𝒛 (12.10)

(iは観測データ番号)

𝑫𝑲𝑳(𝑫||𝑴)

観測データが多数の場合（𝒚1, 𝒚2, ⋯ , 𝒚𝑛)では

観測できるのはデータ多様体の方なので、DとMのKLダイバージェンスを考える

14/18


𝐿 𝑞 𝒛 𝒚 , 𝝃 = 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒚 𝑞 𝒛 𝒚

𝑝(𝒚, 𝒛, 𝝃)𝑑𝒚𝑑𝒛 (12.10)

これを最小にする 𝑞 𝒛 𝒚 , 𝝃はDとM間のダイバージェンスを最小にする最近接点

𝐷𝐾𝐿 𝑞 𝒚 𝑞||𝑝 𝒚, 𝒛, 𝝃

= [ 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒛 𝒚 𝑑𝒛

𝐷𝐾𝐿 𝑞 𝒚 𝑞||𝑝 𝒚, 𝒛, 𝝃

− 𝑞 𝒚 𝑞 𝒛 𝒚 𝑝 𝒚, 𝒛, 𝝃 𝑑𝒛 + 𝑞 𝒚 log 𝑞 𝒚 ]𝑑𝒚

(12.11)

定理12.1: DとMのダイバージェンスを最小

にする 𝝃は，最尤推定に一致する

定理12.2: Mの一点からデータ多様体Dへのe-射影に対して，条件付き分布𝑞 𝒛 𝒚 は不変で，𝒛の条件付き期待値は元のものと同じになる


15/18


Mステップ1

𝑞(𝐷)

Eステップ


16/18


まとめ

情報幾何学の立場からのEMアルゴリズムの解釈を試みた Eステップはモデル多様体の１点からデータ多様体の１点への射影だといえる(e-射影)

Mステップはデータ多様体の１点からモデル多様体の1点への射影だといえる（m-射影）

Eステップ、Mステップの繰り返しはデータ多様体とモデル多様体の最近接点を求めることに等しい

今回扱わなかった（踏み込まなかった）内容双対平坦(e-平坦，m-平坦)，指数型分布族・混合型分布族ベイズ統計への応用

17/18


参考文献

甘利俊一，情報幾何の新展開，第３章，１２章藤原彰夫，情報幾何学の基礎C.M.ビショップ，パターン認識と機械学習下, 第９章混合モデルとEM

赤穂昭太郎, 情報幾何で見る機械学習,

https://unit.aist.go.jp/airc/docs/seminar02-akaho.pdf

Andrew Ng, CS229 Lecture notes,


村田昇，池田思朗，神経回路網とEMアルゴリズムhttp://www.ism.ac.jp/~shiro/papers/books/embook2000.pdf

18/18

https://unit.aist.go.jp/airc/docs/seminar02-akaho.pdf


http://www.ism.ac.jp/~shiro/papers/books/embook2000.pdf

情報幾何勉強会 emアルゴリズム

Engineering