ベイズ chow-liu アルゴリズム
DESCRIPTION
人工知能学会 FPAI研究会 2013年7月19日 (北海道稚内市)TRANSCRIPT
.
.
. ..
.
.
ベイズ Chow-Liu アルゴリズム
鈴木譲
大阪大学
2013年 7月 19日人工知能学会 FPAI研究会
(北海道稚内市)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 1
/ 22
ロードマップ
ロードマップ
.
. .
1 Chow-Liuアルゴリズム
.
. .
2 ユニバーサルデータ圧縮
.
. .
3 ユニバーサルなベイズ測度
.
. .
4 まとめ
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 2
/ 22
ロードマップ
スライドは、お手元でもご覧になれます
キーワード: Joe Suzukislideshare
http://www.slideshare.net/prof-joe/
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 3
/ 22
Chow-Liu アルゴリズム
Chow-Liu: 木への近似 (1968)
X (1), · · · ,X (N): N (≥ 1) 離散 確率変数P1,··· ,N(x
(1), · · · , x (N)): X (1) = x (1), · · · ,X (N) = x (N)の分布
V := {1, · · · ,N}と E ⊆ {{i , j}|i = j , i , j ∈ V }が木を構成すると仮定
Q(x (1), · · · , x (N)|E ) =∏
{i ,j}∈E
Pi ,j(x(i), x (j))
Pi (x (i))Pj(x (j))
∏i∈V
Pi (x(i))
.
D(P1,··· ,N ||Q)→ 最小
.
.
.
. ..
.
.
ループができない限り、I (i , j)を最大にする {i , j}を辺として結ぶ
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 4
/ 22
Chow-Liu アルゴリズム
例
i 1 1 2 1 2 3
j 2 3 3 4 4 4
I (i , j) 12 10 8 6 4 2
j jj j2 4
1 3 j jj j2 4
1 3
j jj j2 4
1 3 j jj j2 4
1 3@@
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 5
/ 22
Chow-Liu アルゴリズム
Kullback情報量
D(P1,··· ,N ||Q) =∑
x(1),···x(N)
P1,··· ,N(x(1), · · · x (N)) log
P1,··· ,N(x(1), · · · x (N))
Q(x (1), · · · x (N))
= −H(1, · · · ,N) +N∑
i∈VH(i)−
∑{i ,j}∈E
I (i , j)
H(i): X (i)のエントロピー
I (i , j): X (i),X (j)の相互情報量
H(1, · · · ,N): X (1), · · · ,X (N)の同時エントロピー
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 6
/ 22
Chow-Liu アルゴリズム
Kruscalのアルゴリズム
V : 有限集合E := {{u, v}|u = v , u, v ∈ V }
.
.
.
1 E ← {}
.
.
.
2 ループができない限り、w(e)最大の e ∈ E に対して E ← E + {e}
.
Kruscalのアルゴリズム
.
.
.
. ..
.
.
∑e∈E
w(e)を最大にする木 (V ,E )が構成される
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 7
/ 22
Chow-Liu アルゴリズム
Chow-Liu: 最尤による木の推定
.
推定
.
.
.
. ..
.
.
分布 P1,··· ,N ではなく、n個の例 xn = {(x (1)i , · · · , x (N)i )}ni=1から出発
xnから得られた相対頻度 pi , pi ,j を用いて、以下が計算される:
H(i): i ∈ V の経験的エントロピーI (i , j): {i , j} ∈ E の経験的相互情報量
木の経験的エントロピーは以下で計算される:
Hn(xn|E ) := n∑i∈V
H(i)− n∑
{i ,j}∈E
I (i , j)
.
Hn(xn|E )→ 最小
.
.
.
. ..
.
.
ループができない限り、I (i , j)を最大にする {i , j}を辺として結ぶ
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 8
/ 22
Chow-Liu アルゴリズム
最尤法の問題点
X (i)が α(i)通りの値をとるとき、
.
.
.
1 X (1), · · ·X (N)が独立のときも、木を推定する
.
.
.
2 α(i), α(j)が大きくても、I (i , j)が最大の辺 {i , j}を選ぶ (過学習)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 9
/ 22
Chow-Liu アルゴリズム
Chow-Liu: MDLによる木の推定 (Suzuki, 1993)
π(E ): E の事前確率 (一様と仮定)E のもとでの記述長を計算:
L(xn|E ) := Hn(xn|E ) + 1
2k(E ) log n
Hn(xn|E ) := n∑i∈V
H(i)− n∑
{i ,j}∈E
I (i , j)
パラメータ数:
k(E ) :=∑i∈V
α(i) +∑
{i ,j}∈E
(α(i) − 1)(α(j) − 1)
J(i , j) = I (i , j)− 1
2n(α(i) − 1)(α(j) − 1) log n
.
記述長 L(xn|E )− log π(E )→ 最小
.
.
.
. ..
.
.
ループができない限り、J(i , j)を最大にする {i , j}を辺として結ぶ
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 10
/ 22
Chow-Liu アルゴリズム
MDLのメリット
X (i)が α(i)通りの値をとるとき、
J(i , j) = I (i , j)− 1
2n(α(i) − 1)(α(j) − 1) log n
.
.
.
1 木ではなく森を推定する
.
.
.
2 X (1), · · ·X (N)が独立のときも、辺を結ばない
.
.
.
3 α(i), α(j)を考慮して、I (i , j)でなく J(i , j)が最大の辺 {i , j}を選ぶ
.
.
.
4 過学習は避ける
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 11
/ 22
Chow-Liu アルゴリズム
最尤とMDL
最尤 MDL
E の選択 Hn(xn|E ) Hn(xn|E ) + 12k(E ) log n
最小 最小
{i , j}の選択 I (i , j) I (i , j)− 12n (α
(i) − 1)(α(j) − 1) log n最大 最大
基準 xnの E への適合性 xnの E への適合性E の簡潔さ
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 12
/ 22
Chow-Liu アルゴリズム
Chow-Liu: Bayesによる木の推定
Q1,··· ,N(x(1), · · · , x (N)|E ) =
∏{i ,j}∈E
Pi ,j(x(i), x (j))
Pi (x (i))Pj(x (j))
∏i∈V
Pi (x(i))
Rn(xn|E ) :=∏
{i ,j}∈E
Rn(i , j)
Rn(i)Rn(j)
∏i∈V
Rn(i)
Rn(i): {x (i)k }nk=1で表現
Rn(i , j): {x (i)k }nk=1,{x
(j)k }
nk=1で表現
J(i , j) :=1
nlog
Rn(i , j)
Rn(i)Rn(j)
.
事後確率 π(E )Rn(xn|E )→最大
.
.
.
. ..
.
.
ループができない限り、J(i , j)を最大にする {i , j}を辺として結ぶ
.
L(xx |E )と J(i , j)
.
.
.
. ..
.
.
(それぞれ、− logR(xn|E )と J(i , j)の漸近近似に過ぎない)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 13
/ 22
ユニバーサルデータ圧縮
どんな Rnが、Pnの代わりになりうるのか?
A: 有限集合
yn = (y1, · · · , yn) ∈ An
.
真の θ = θ∗は、使えない
.
.
.
. ..
.
.
Rn(yn) = Pn(yn|θ∗)
w : θの重み
Rn(yn) :=
∫Pn(yn|θ)w(θ)dθ
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 14
/ 22
ユニバーサルデータ圧縮
例: Bayes符号
A = {0, 1}のとき、c : yn = (y1, · · · , yn) ∈ {0, 1}n ∈ Anにおける 1の頻度θ: 1の確率
Pn(yn|θ) = θc(1− θ)n−c
a, b > 0
w(θ) ∝ 1
θa(1− θ)b
Rn(yn) :=
∫P(yn|θ)w(θ)dθ =
∏c−1j=0 (j + a) ·
∏n−c−1k=0 (k + b)∏n−1
i=0 (i + a+ b)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 15
/ 22
ユニバーサルデータ圧縮
ユニバーサル性
a = b = 1/2とおくと (Krichevsky-Trofimov)、どのような P についても
−1
nlogRn(yn)→ H :=
∑y∈A−θ log θ − (1− θ) log(1− θ)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 16
/ 22
ユニバーサルデータ圧縮
Shannon McMillian Breimanの定理
どのような P についても
−1
nlogPn(yn|θ) = 1
nlog{θc(1− θ)n−c} → E [− logP(yi )] = H
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 17
/ 22
ユニバーサルデータ圧縮
nが大きいと、どうして Pnを Rnにしてよいのか?
Pn(yn|θ)を Pn(yn)と書くと、どのような P についても
1
nlog
Pn(yn)
Rn(yn)→ 0 (1)
.
Rnはユニバーサルなベイズ測度
.
.
.
. ..
.
.
離散や連続を仮定しない Rnと (1)の一般化 (Suzuki, 2012)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 18
/ 22
ユニバーサルなベイズ測度
Chow-Liuアルゴリズムの問題に戻ると
a = 1/2として
Rn(i) :=
∏x∈A
ci [x]−1∏j=0
(j + a)
∏n−1k=0(k + α(i)a)
Rn(i , j) :=
∏x∈A
∏y∈A
ci [x ,y ]−1∏j=0
(j + a)
∏n−1k=0(k + α(i)α(j)a)
ci [x ]: X(i) = x の頻度
ci ,j [x(i), x (j)]: X (i) = x , X (j) = y の頻度
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 19
/ 22
ユニバーサルなベイズ測度
ユニバーサル性から
Rn(xn|E ) :=∏
{i ,j}∈E
Rn(i , j)
Rn(i)Rn(j)
∏i∈V
Rn(i)
−1
nlogRn(i)→ H(i)
−1
nlogRn(i , j)→ H(i , j)
J(i , j) =1
nlog
Rn(i , j)
Rn(i)Rn(j)→ H(i) + H(j)− H(i , j) = I (i , j)
−1
nlogRn(xn|E )→
∑i∈V
H(i)−∑
{i ,j}∈E
I (i , j)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 20
/ 22
ユニバーサルなベイズ測度
Shannon McMillian Breimanの定理の適用
Q(x (1), · · · , x (N)|E ) =∏
{i ,j}∈E
Pi ,j(x(i), x (j))
Pi (x (i))Pj(x (j))
∏i∈V
Pi (x(i))
−1
nlogPn({x (i)k }
nk=1|θ)→ H(i)
−1
nlogPn({x (i)k , x
(j)k }
nk=1|θ)→ H(i , j)
1
nlog
Pn({x (i)k , x(j)k }
nk=1|θ)
Pn({x (i)k }nk=1|θ)Pn({x (j)k }nk=1|θ)→ H(i) + H(j)− H(i , j) = I (i , j)
−1
nlogQn(xn|E )→
∑i∈V
H(i)−∑
{i ,j}∈E
I (i , j)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 21
/ 22
まとめ
まとめ: Rnはユニバーサルなベイズ測度
どのようなQ についても
1
nlog
Qn(xn|E )Rn(xn|E )
→ 0 (2)
その他の応用事例:
Bayesianネットワークの構造推定の一般化 (DCC 2012)
{Xi}が連続である場合のMarkovの次数推定
本講演を含む
最近のスライド
http://www.slideshare.net/prof-joe/
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 22
/ 22