ベイズ chow-liu アルゴリズム

.

.

. ..

.

.

ベイズ Chow-Liu アルゴリズム

鈴木譲

大阪大学

2013年 7月 19日人工知能学会 FPAI研究会

(北海道稚内市)

鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム2013 年 7 月 19 日人工知能学会 FPAI 研究会 (北海道稚内市) 1

/ 22

ロードマップ

ロードマップ

.

. .

1 Chow-Liuアルゴリズム

.

. .

2 ユニバーサルデータ圧縮

.

. .

3 ユニバーサルなベイズ測度

.

. .

4 まとめ


/ 22

ロードマップ

スライドは、お手元でもご覧になれます

キーワード: Joe Suzukislideshare

http://www.slideshare.net/prof-joe/


/ 22

Chow-Liu アルゴリズム

Chow-Liu: 木への近似 (1968)

X (1), · · · ,X (N): N (≥ 1) 離散確率変数P1,··· ,N(x

(1), · · · , x (N)): X (1) = x (1), · · · ,X (N) = x (N)の分布

　

V := {1, · · · ,N}と E ⊆ {{i , j}|i = j , i , j ∈ V }が木を構成すると仮定

Q(x (1), · · · , x (N)|E ) =∏

{i ,j}∈E

Pi ,j(x(i), x (j))

Pi (x (i))Pj(x (j))

∏i∈V

Pi (x(i))

.

D(P1,··· ,N ||Q)→ 最小

.

.

.

. ..

.

.

ループができない限り、I (i , j)を最大にする {i , j}を辺として結ぶ


/ 22


例

i 1 1 2 1 2 3

j 2 3 3 4 4 4

I (i , j) 12 10 8 6 4 2

j jj j2 4

1 3 j jj j2 4

1 3

j jj j2 4

1 3 j jj j2 4

1 3@@


/ 22


Kullback情報量

D(P1,··· ,N ||Q) =∑

x(1),···x(N)

P1,··· ,N(x(1), · · · x (N)) log

P1,··· ,N(x(1), · · · x (N))

Q(x (1), · · · x (N))

= −H(1, · · · ,N) +N∑

i∈VH(i)−

∑{i ,j}∈E

I (i , j)

H(i): X (i)のエントロピー

I (i , j): X (i),X (j)の相互情報量

H(1, · · · ,N): X (1), · · · ,X (N)の同時エントロピー


/ 22


Kruscalのアルゴリズム

V : 有限集合E := {{u, v}|u = v , u, v ∈ V }

.

.

.

1 E ← {}

.

.

.

2 ループができない限り、w(e)最大の e ∈ E に対して E ← E + {e}

.

Kruscalのアルゴリズム

.

.

.

. ..

.

.

∑e∈E

w(e)を最大にする木 (V ,E )が構成される


/ 22


Chow-Liu: 最尤による木の推定

.

推定

.

.

.

. ..

.

.

分布 P1,··· ,N ではなく、n個の例 xn = {(x (1)i , · · · , x (N)i )}ni=1から出発

xnから得られた相対頻度 pi , pi ,j を用いて、以下が計算される:

H(i): i ∈ V の経験的エントロピーI (i , j): {i , j} ∈ E の経験的相互情報量　

木の経験的エントロピーは以下で計算される:

Hn(xn|E ) := n∑i∈V

H(i)− n∑

{i ,j}∈E

I (i , j)

.

Hn(xn|E )→ 最小

.

.

.

. ..

.

.

ループができない限り、I (i , j)を最大にする {i , j}を辺として結ぶ


/ 22


最尤法の問題点

X (i)が α(i)通りの値をとるとき、

.

.

.

1 X (1), · · ·X (N)が独立のときも、木を推定する

.

.

.

2 α(i), α(j)が大きくても、I (i , j)が最大の辺 {i , j}を選ぶ (過学習)


/ 22


Chow-Liu: MDLによる木の推定 (Suzuki, 1993)

π(E ): E の事前確率 (一様と仮定)E のもとでの記述長を計算:

L(xn|E ) := Hn(xn|E ) + 1

2k(E ) log n

Hn(xn|E ) := n∑i∈V

H(i)− n∑

{i ,j}∈E

I (i , j)

パラメータ数:

k(E ) :=∑i∈V

α(i) +∑

{i ,j}∈E

(α(i) − 1)(α(j) − 1)

J(i , j) = I (i , j)− 1

2n(α(i) − 1)(α(j) − 1) log n

.

記述長 L(xn|E )− log π(E )→ 最小

.

.

.

. ..

.

.

ループができない限り、J(i , j)を最大にする {i , j}を辺として結ぶ


/ 22


MDLのメリット

X (i)が α(i)通りの値をとるとき、

J(i , j) = I (i , j)− 1

2n(α(i) − 1)(α(j) − 1) log n

.

.

.

1 木ではなく森を推定する

.

.

.

2 X (1), · · ·X (N)が独立のときも、辺を結ばない

.

.

.

3 α(i), α(j)を考慮して、I (i , j)でなく J(i , j)が最大の辺 {i , j}を選ぶ

.

.

.

4 過学習は避ける


/ 22


最尤とMDL

最尤 MDL

E の選択 Hn(xn|E ) Hn(xn|E ) + 12k(E ) log n

最小最小

{i , j}の選択 I (i , j) I (i , j)− 12n (α

(i) − 1)(α(j) − 1) log n最大最大

基準 xnの E への適合性 xnの E への適合性E の簡潔さ


/ 22


Chow-Liu: Bayesによる木の推定

Q1,··· ,N(x(1), · · · , x (N)|E ) =

∏{i ,j}∈E

Pi ,j(x(i), x (j))

Pi (x (i))Pj(x (j))

∏i∈V

Pi (x(i))

Rn(xn|E ) :=∏

{i ,j}∈E

Rn(i , j)

Rn(i)Rn(j)

∏i∈V

Rn(i)

Rn(i): {x (i)k }nk=1で表現

Rn(i , j): {x (i)k }nk=1,{x

(j)k }

nk=1で表現

J(i , j) :=1

nlog

Rn(i , j)

Rn(i)Rn(j)

.

事後確率 π(E )Rn(xn|E )→最大

.

.

.

. ..

.

.

ループができない限り、J(i , j)を最大にする {i , j}を辺として結ぶ

.

L(xx |E )と J(i , j)

.

.

.

. ..

.

.

(それぞれ、− logR(xn|E )と J(i , j)の漸近近似に過ぎない)


/ 22

ユニバーサルデータ圧縮

どんな Rnが、Pnの代わりになりうるのか?

A: 有限集合　

yn = (y1, · · · , yn) ∈ An

.

真の θ = θ∗は、使えない

.

.

.

. ..

.

.

Rn(yn) = Pn(yn|θ∗)

w : θの重み

Rn(yn) :=

∫Pn(yn|θ)w(θ)dθ


/ 22


例: Bayes符号

A = {0, 1}のとき、c : yn = (y1, · · · , yn) ∈ {0, 1}n ∈ Anにおける 1の頻度θ: 1の確率

Pn(yn|θ) = θc(1− θ)n−c

a, b > 0

w(θ) ∝ 1

θa(1− θ)b

Rn(yn) :=

∫P(yn|θ)w(θ)dθ =

∏c−1j=0 (j + a) ·

∏n−c−1k=0 (k + b)∏n−1

i=0 (i + a+ b)


/ 22


ユニバーサル性

a = b = 1/2とおくと (Krichevsky-Trofimov)、どのような P についても

−1

nlogRn(yn)→ H :=

∑y∈A−θ log θ − (1− θ) log(1− θ)


/ 22


Shannon McMillian Breimanの定理

どのような P についても

−1

nlogPn(yn|θ) = 1

nlog{θc(1− θ)n−c} → E [− logP(yi )] = H


/ 22


nが大きいと、どうして Pnを Rnにしてよいのか?

Pn(yn|θ)を Pn(yn)と書くと、どのような P についても

1

nlog

Pn(yn)

Rn(yn)→ 0 (1)

.

Rnはユニバーサルなベイズ測度

.

.

.

. ..

.

.

離散や連続を仮定しない Rnと (1)の一般化 (Suzuki, 2012)


/ 22

ユニバーサルなベイズ測度

Chow-Liuアルゴリズムの問題に戻ると

a = 1/2として

Rn(i) :=

∏x∈A

ci [x]−1∏j=0

(j + a)

∏n−1k=0(k + α(i)a)

Rn(i , j) :=

∏x∈A

∏y∈A

ci [x ,y ]−1∏j=0

(j + a)

∏n−1k=0(k + α(i)α(j)a)

ci [x ]: X(i) = x の頻度

ci ,j [x(i), x (j)]: X (i) = x , X (j) = y の頻度


/ 22


ユニバーサル性から

Rn(xn|E ) :=∏

{i ,j}∈E

Rn(i , j)

Rn(i)Rn(j)

∏i∈V

Rn(i)

−1

nlogRn(i)→ H(i)

−1

nlogRn(i , j)→ H(i , j)

J(i , j) =1

nlog

Rn(i , j)

Rn(i)Rn(j)→ H(i) + H(j)− H(i , j) = I (i , j)

−1

nlogRn(xn|E )→

∑i∈V

H(i)−∑

{i ,j}∈E

I (i , j)


/ 22


Shannon McMillian Breimanの定理の適用

Q(x (1), · · · , x (N)|E ) =∏

{i ,j}∈E

Pi ,j(x(i), x (j))

Pi (x (i))Pj(x (j))

∏i∈V

Pi (x(i))

−1

nlogPn({x (i)k }

nk=1|θ)→ H(i)

−1

nlogPn({x (i)k , x

(j)k }

nk=1|θ)→ H(i , j)

1

nlog

Pn({x (i)k , x(j)k }

nk=1|θ)

Pn({x (i)k }nk=1|θ)Pn({x (j)k }nk=1|θ)→ H(i) + H(j)− H(i , j) = I (i , j)

−1

nlogQn(xn|E )→

∑i∈V

H(i)−∑

{i ,j}∈E

I (i , j)


/ 22

まとめ

まとめ: Rnはユニバーサルなベイズ測度

どのようなQ についても

1

nlog

Qn(xn|E )Rn(xn|E )

→ 0 (2)

その他の応用事例:

Bayesianネットワークの構造推定の一般化 (DCC 2012)

{Xi}が連続である場合のMarkovの次数推定

本講演を含む

最近のスライド

http://www.slideshare.net/prof-joe/


/ 22

ベイズ chow-liu アルゴリズム

Documents