ベイジアン・ネットワークモデル...x3 x x 4 x3 x2 x1...

8
1 ベイジアン・ネットワークの学習 電気通信大学大学院 情報システム学研究科 植野 真臣 ベイジアン・ネットワークモデル = Π = N i i i N G x p G x x x P 1 2 1 ) , | ( ) | , , , ( ! } , , , { 2 1 i q i x x x ! Π は変数i の親ノード集合 1 2 4 3 5 P(x 1 =1)=.80 P(x 3 =1|x 1 =1)=.80 P(x 3 =1|x 1 =0)=.20 P(x 5 =1|x 3 =1)=.80 P(x 5 =1|x 3 =0)=.20 P(x 2 =1|x 1 =1)=.80 P(x 2 =1|x 1 =0)=.20 P(x 4 =1|x 2 =1,x 3 =1)=.80 P(x 4 =1|x 2 =0,x 3 =1)=.60 P(x 4 =1|x 2 =1,x 3 =0)=.60 P(x 4 =1|x 2 =0,x 3 =0)=.20 パラメータ化とパラメータ推定 ベイジアン・ネットワークのParametrerization Spiegelhalter, D.J.,and Lauritzen, S.L. 1990) Spiegelhalter, D.J.,and Lauritzen, S.L. Sequential updating of conditional Probabilities on directed graphical structures. Networks 20 (1990), 579-605 今、 ijk θ を親ノード変数集合 i Π j 番目のパターンをとったときの k x i = となる条件付確率を示すパラメータとする。 このとき、データXを得たときの尤度は、以下のとおりである。 ∏∏ = = = = = = Θ 1 0 1 1 1 0 1 0 1 0 ! ! ) , | ( i ijk i i i i ijk r k n ijk N i q j r k ijk r k ijk r k n ijk S n n G L θ θ X 多項分布の自然共役分布である以下のディ レクレイ分布を事前分布に導入 Cooper and Herskovits, 1992 A Bayesian methods for the Indu ctio n of Pr ob ab il istic net work s from d ata, M ach in e L ear ni n g, 9, 309-347 ∏∏ = = = = = Γ Γ = Θ 1 0 1 1 1 1 0 1 0 ) ( ) ( ) | ( i iij i i i r k ijk N i q j r k ijk r k ijk S G p α θ α α ディレクレィ分布の 周辺分布ベータ分布 0.2 0.4 0.6 0.8 1 1 2 3 4 5 α=1/2 α=1 α=-1/log+1/2

Upload: others

Post on 15-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

1

ベイジアン・ネットワークの学習

電気通信大学大学院情報システム学研究科

植野 真臣

ベイジアン・ネットワークモデル

∏=

Π=N

iiiN GxpGxxxP

121 ),|()|,,,( !

},,,{ 21 iqi xxx !⊆Π は変数iの親ノード集合

1

2

4

3

5

P(x1=1)=.80

P(x3=1|x

1=1)=.80

P(x3=1|x

1=0)=.20

P(x5=1|x

3=1)=.80

P(x5=1|x

3=0)=.20

P(x2=1|x

1=1)=.80

P(x2=1|x

1=0)=.20

P(x4=1|x

2=1,x

3=1)=.80

P(x4=1|x

2=0,x

3=1)=.60

P(x4=1|x

2=1,x

3=0)=.60

P(x4=1|x

2=0,x

3=0)=.20

パラメータ化とパラメータ推定 ベイジアン・ネットワークのParametrerization(Spiegelhalter, D.J.,and Lauritzen, S.L. 1990)

Spiegelhalter, D.J.,and Lauritzen, S.L. Sequential updating of conditional Probabilities on directed graphical structures. Networks 20 (1990), 579-605

今、 ijkθ を親ノード変数集合 iΠ がj番目のパターンをとったときの

kxi =となる条件付確率を示すパラメータとする。このとき、データXを得たときの尤度は、以下のとおりである。

∏∏∏∏

== =−

=

=

=

∝Θ

1

01 11

0

1

0

1

0

!

!

),|(

iijk

i

i

i

iijk

r

k

nijk

N

i

q

jr

kijk

r

kijk

r

k

nijkS

n

n

GL

θ

θX

• 多項分布の自然共役分布である以下のディレクレイ分布を事前分布に導入

Cooper and Herskovits, 1992 A Bayesian methods for the Induction of Pr obabil istic net work s from data, M achine Lear ning, 9, 309-347

∏∏∏∏

∑ −

=

= =−

=

=

Γ

Γ=Θ

1

0

1

1 11

0

1

0

)(

)()|(

iiij

i

i

i

r

kijk

N

i

q

jr

kijk

r

kijk

S Gp αθα

α

ディレクレィ分布の周辺分布ベータ分布

0.2 0.4 0.6 0.8 1

1

2

3

4

5

α=1/2

α=1

α=-1/lo g+1/2

Page 2: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

2

事後分布

∏∏∏

∏∏∏∏

= =

=

−+

=

−+

= =−

=

=

−+Γ

−+Γ=Θ

N

i

q

j

r

k

nijk

r

k

nijk

N

i

q

jr

kijkijk

r

kijkijk

G

i iijkijk

iijkijk

i

i

i

n

nGp

1 1

1

0

1

1

0

1

1 11

0

1

0

)1(

))1(()|,(

α

α

θ

θα

αX

EAP推定量

ijij

ijkijkijk n

n+

+=α

αθ̂

∑−

=

=1

0

ir

kijkij αα

,

∑−

=

=1

0

ir

kijkij nn

.

ただし

表1ノード番号

1 2 3 4 5

1 1 0 1 1 1

2 0 0 0 1 0

3 1 1 1 1 1

4 1 1 1 1 0

5 1 1 1 1 0

6 1 1 0 0 0

7 1 0 0 0 0

8 0 0 0 0 0

9 0 0 0 0 0

10 0 1 1 1 1

11 0 0 0 0 0

12 1 1 1 1 1

13 0 0 1 1 1

14 1 1 1 1 1

15 1 0 1 1 1

16 1 1 1 0 0

17 1 1 0 1 0

18 1 1 1 0 0

19 1 1 0 1 0

20 1 1 1 0 1

平均 0.70 0.60 0.60 0.60 0.40

表1より推定した母数推定値

真の値 αi jk=0 αi jk=1 αi jk=1/2

P(x2=1|x1=1) 0.8 0.8. 0.76 0.78

P(x2=1|x1=0) 0.2 0 0.14 0.08

P(x3=1|x1=1) 0.8 0.8 0.76 0.78

P(x3=1|x1=0) 0.2 0 0.14 0.08

P(x4=1|x2=1, x3=1) 0.8 0.66 0.64 0.65

P(x4=1|x2=1, x3=0) 0.6 0.5 0.5 0.5

P(x4=1|x2=0, x3=1) 0.6 0.5 0.5 0.5

P(x4=1|x2=0, x3=0) 0.2 0.4 0.43 0.41

P(x5=1|x3=1) 0.8 0.67 0.64 0.42

P(x5=1|x3=0) 0.2 0.33 0.35 0.34

真の値との平均自乗誤差 0.0193 0.015 0.028

Learning Bayesian Networks

データから構造を推定する

1

2

4

3

5

P(x1=1) =.80

P(x3=1 | x

1=1) =.80

P(x3=1 | x

1=0) =.20

P(x5=1 | x

3=1) =.80

P(x5=1 | x

3=0) =.20

P(x2=1 | x

1=1) =.80

P(x2=1 | x

1=0) =.20

P(x4=1 | x

2=1,x

3=1) =.80

P(x4=1 | x

2=0,x

3=1) =.60

P(x4=1 | x

2=1,x

3=0) =.60

P(x4=1 | x

2=0,x

3=0) =.20

Page 3: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

3

モデル選択基準もっとも良いモデルをデータから選択する基準

以下を最小化するモデルを選べばよい

Akaike Information Criterion

AIC = - 2 ln-Likelihood + 2 No.Parameters

Bayesian Information Criterion

BIC = -2 ln-Likelihood + No.Parameters ln(n)

ここで nはデータ数

AICは期待対数尤度の近似,BICは周辺尤度の近似

AICは漸近的一致性を持たないが,BICは持つ.

AICとBICの条件

• AICとBICは,統計的正則モデルを仮定している。

• 統計的正則モデル:最尤推定量が正規分布に法則収束するモデルを 正則モデルと呼ぶ

。このとき,漸近的にフィッシャー情報量行列の固有値がすべて0よりも大きいので漸近展開により,AICやBICが導出される。

ベイジアンネットワークは

• 統計的正則性を持たない。• 情報科学で用いられる数理モデルは,ほとんど統計的正則性を持たない。

• 理論的には AICやBICを用いることは問題がある。

ディレクレィ分布の周辺尤度を直接計算

∏∏∏

∏∏∏∑

== =

== =−

=

Θ

Γ

Γ=

Γ

⎥⎦

⎤⎢⎣

⎡+Γ

Γ=

ΘΘΘ∝

1

01 1

1

01 11

0

)()(

)()(

)(

)()(

)(

)()(

)()|,()()|(

ii

ii

i

S

r

k ijk

ijkijkN

i

q

j ijij

ijk

r

k ijk

ijkijkN

i

q

jr

kijkijk

ijk

GGG

nn

GP

n

nGP

dpGpGPXGp

α

α

α

α

α

α

α

α

X

K2(Cooper and Herskovits 1992)

αijk=1(一様分布)のとき

∏∏∏−

== = −+

−∝

1

01 1

!)!1(

)!1()()|(

ii r

kijk

N

i

q

j iij

i nrn

rSpSp X

D.Heckerman, D.Geiger and D.M.Chickering (1995)• Likelihood equivalence

の構造がマルコフ確率構造として同型であるとき

が成り立つこと)|()|( 21 SpSp UU Θ=Θ

1S 2S

Page 4: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

4

n’ijk =1のときの周辺尤度今、二つの変数 について二つの背反するLikelihood

equivalenceの構造 を考える。

を用いた場合、

となり、 Likelihood equivalenceの仮定を満たさない。

yx,xyS →

∏∏∏−

== = −+

−∝

1

01 1

!)!1(

)!1()()|(

ii r

kijk

N

i

q

j iij

i nrn

rSpSp X

)|()|( XSpXSp xyyx →→ ≠

yxS →

BDe Score Metric(Likelihood equivalent Bayesian Dirichlet scoring)• Likelihood equivalenceの仮定を満たす

Scoring Metricの十分条件は

ただし

は事前分布の擬似サンプル数ESSで事前分布の重みでもある

∏∏∏−

== = Γ

Γ 1

01 1 )()(

)()(

)(ii r

k ijk

ijkijkN

i

q

j ijij

ijk nn

SPα

α

α

α

)|,( Sjkxp iiijk =Π==ααα

BDeu Score Metric(W.L.Buntine (1991))

• Bdeの一様分布を考えたモデル

ただし

∏∏∏−

== = Γ

Γ 1

01 1 )()(

)()(

)(ii r

k ijk

ijkijkN

i

q

j ijij

ijk nn

SPα

α

α

α

)/( iiijk rqαα =

問:ハイパーパラメータn’を大きくするとエッジは付きやすくなるのか?

ijij

ijkijkijk n

n+

+=α

αθ̂

∑−

=

=1

0

ir

kijkij αα

,

∑−

=

=1

0

ir

kijkij nn

.

ただし

P(X=1|Y=1) P(X=1|Y=0)真の条件付き確率

P(X=1|Y=1) P(X=1|Y=0)ハイパーパラメータαを大きくするとその推定値は一様分布に近づく

予測

• ESSを大きくするとエッジはつきにくくなる

Page 5: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

5

Ueno2010

データへのESS値の最適性

Page 6: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

6

いまおそらく最もよいスコア事前知識に頑健な基準

完全無情報事前分布 構造の探索アルゴリズム

例えば、n=2のとき、構造数は3、n=3のとき、構造数は25、n=5で29000,n=10で4.2×1018

探索問題は、指数爆発する。。なんらかの工夫が必要。

)(2)1()( )(

1

1 infin

nf inin

i

i −⎥⎦

⎤⎢⎣

⎡−= −

=

+∑

変数の数nに対して、構造の候補数は以下のように増える。

アルゴリズム

1. 変数間の順序を決める。X1>x2>‥>xn2. Xnのすべての親ノードパターンを変えながら、情報量基準でどのパターンが最適かを検索。親ノードパターンは、親ノード数をm個に制限するのが普通である。

3. Xn-1について、1と同じ手続きを行い、X1まで繰り返す。

4. 最もよい値を置いておく5. すべての順序について1-4を繰り返す

• X1>X2>x3から始める

X3 X3

X2X2

勝ち

X3

X2 X1

勝ち

X3

X2 X1

X3

X2 X1

勝ち

X3

X2 X1

真の構造

Page 7: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

7

• X1>X3>X2• X2>X3>X1• X2>X1>X3• X3>X2>X1• X3>X1>X2について同様のことを行い,最もスコアの高かった構造を推定値とする

親探しアルゴリズムが重要• 順序を所与として,• 変数Xiの親ノード候補から、いかに早く親ノードをみつけてくるかのためのアルゴリズム

• 例 X4>X3>X2>X1X4

X2 X1X3

X4

X2 X1X3

X4

X2 X1X3

X4

X2 X1X3

親ノード探索に用いられるアルゴリズム

• 動的計画法DP O(N2^N)• A*探索• 幅優先探索と分枝限定法(BFBnB)

性質(1) すべてのパラメータのディレクレ分布のハイパーパラメータを設定できる

0.2 0.4 0.6 0.8 1

1

2

3

4

5

n’=1/2n’=1

N’=-1/log+1/2

例えば、事前に因果関係があると考えられるアークの設定やないと考えられるアークの設定も事前分布の設定により矛盾なく行える

様々な情報量基準を表現できるし、それらをMIXした基準も作り出せる

Page 8: ベイジアン・ネットワークモデル...X3 X X 4 X3 X2 X1 親ノード探索に用いられる アルゴリズム • 動的計画法DP O(N2^N) • A*探索 • 幅優先探索と分枝限定法(BFBnB)

8

本手法の特徴 (2)

• ベイジアンネットワークモデルの各ノードの価値を定義し、評価しながら、望ましいノード集合を探索する手法

ノードの価値(Expected Value of Node Information)植野(1993,1994,1996、1999)

=

=

=

n

i

iq

n

i

iq

lnn

linin

xxpxxp

xxxpxxxpEVNIN

1

1

2

111

2

111

),(log),(

)|,(log)|,(

!!

!!

変数評価機能:KeyNode

頑健で、解釈しやすくて、予測効率の高いCausal Modelが構築できる