関数モデル上の統計的因果推論研究の現状 ·...

関数モデル上の統計的因果推論研究の現状

2011年11月25日北海道大学大学院情報科学研究科湊ERATO連携講座大学院特論科目（4）集中講義「大規模離散計算科学特論」

客員教授鷲尾隆（大阪大学産業科学研究所）

統計的因果推論（グラフィカルモデリング）の概観因果構造の学習（構造学習）や因果強度の学習（パラメータ学習）

nnnn exbxbx

exbxbx

exbxbx

exbx

ex

3322

43431414

32321313

21212

11

1x

2x

3x

4x

nx

1e

2e

3e

4e

neデータ生成順序を表す有向非巡回グラフ

DAG (Directed Acyclic Graph)

データと人間の背景知識から

変数間の決定関係（変数

データ生成過程）を推定

データ

共分散構造分析

変数間決定関係を線形モデルで同定

),,,|(

) ,|(

) ,|(

)|(

)(

131

314

213

12

1

nn xxxxp

xxxp

xxxp

xxp

xp

ベイジアンネットワーク

変数間決定関係を確率モデルで同定

バイオインフォマティクスやマーケティングなどで多用される解析手法

互いに独立な

非観測外乱

遺伝子発現順序解明への応用

ベイジアンネットワーク構造学習や

統計的因果推論の適用

マイクロアレー

遺伝子発現

プロフィールデータ

DAG因果構造ネットワークの推定

遺伝子機能の解明など

http://www.gene-chips.com/sample1.html




統計的因果推論の基本原理(1)

• 変数集合V=X+Y+Z (X,Y,Zは互いに交わらない)

• 条件付き独立

• マルコフ性の仮定

– DAG因果構造上でXとYがZにより分離されている⇒

)|()|()|,(| ZYpZXpZYXpZYX

ZYX |

X

Z Y

統計的因果推論の基本原理(2) • DAGの基本構造

– Serial Connection: x → z → y

– Diverging Connection: x ← z → y

– Converging Connection: x → z ← y (z: collider)

• d−connectionとd−separation

– Xのある変数xとYのある変数yを辺の向きを無視して結ぶパス上の各colliderについて，collider自身かその下流変数を含み，パス上の非colliderを含まない時かつその時に限り，ZはXとYのd(directed)−connectionという．

– ZはXとYのd−connectionでなければd(directed)−separationという．

統計的因果推論の基本原理(3)

• d−connectionとd−separationの例

– d−connection d−separation

X Y

Z

X Y

Z

ZYX | ZYX |マルコフ性より

統計的因果推論の基本原理(4) • Faithfulness（忠実度）の仮定

– ⇒ZはXとYのd-separationである．

– もっと平易にいうと変数集合間の条件付き独立性がDAG因果構造を忠実に反映していること．

ZYX |

X Y

Z ZYX |

統計的因果推論の代表的アルゴリズム

• 対象変数の個数について指数的にDAG因果構造の

解空間が広がるため，効率的な解候補絞り込み原理・方法が研究されて来た．

– 制約ベース（ＰＣアルゴリズムなど）[Spirtes et al. 2000]

変数間に観測される条件付き独立性からFaithfulnessの仮定とDAGの性質から，変数間のDAG因果構造を推定する．

– スコアベース（ＧＥＳアルゴリズムなど）[Chickering 2002]

変数間に観測される条件付き独立性， Faithfulnessの仮定とDAGの性質を利用しながら，ベイズスコアが最大になる変数間のDAG因果構造を推定する．

ＰＣアルゴリズム（制約ベース）

• 変数集合Vに関するデータDが与えられた時， 1. Vの任意の変数ペアx,yについてなる

が存在しなければ，xとyの間に

無向辺を付与する．

2. Vの任意の非隣接変数ペアx,yについて，x,yが共通の隣接変数zを有し，それがを満たす何れのSxyにも属さないなら， x → z ← yとする．

3. 新たなv-構造(x → z ← y)や閉路を生成しない限り，各辺の向きを決める．

xySyx |

},{\ yxVSxy

xySyx |

ＰＣアルゴリズム（制約ベース） • 例）V={x1,x2,x3,x4}

1. となる

が見つからない．

2. x1とx2の共通の隣接変数x3はなる何れのに属さない．

3. 新たなv-構造(x → z ← y)や閉路を作らないように残りの辺の向きを決める．

433231|,|,| 433231 xxxxxx SxxSxxSxx

VSSS xxxxxx 433231

,,

x1 x2

x3

x4

21|21 xxSxx

21xxS

x1 x2

x3

x4

x1 x2

x3

x4

ＧＥＳアルゴリズム（スコアベース） • 変数集合Vに関するデータDが与えられた時，

–初期のDAG構造gから始めて，Dが示す変数間独立性を満たすようにgの辺の向きの変更，新たな辺の追加を行う．

–ベイズスコアが最大になるDAG構造gをGreedyに探す．

• 例）

)|(ln)(ln),( gDpgpDgSB

x1 x2

x3

x4

x1 x2

x3

x4

x1 x2

x3

x4

x1 x2

x3

x4

),(),(),(),( 3210 DgSDgSDgSDgS BBBB

Bayesian network and nonparametric

hetero-scedastic regression model (Imoto et

al. 2003)

nxx ,,1

n

スコアベース統計的因果推論の応用

ij

j

iqjq

j

ijij epmpmxjj 11

p

i

jijijjGi pxfxf1

;|;

n枚のマイクロアレー

最大事後確率（MAP）解の最良優先探索




変数値分布の独立性が同じ（Markov同値）解や局所最適なスコアを持つ解などが複数存在する。従って，一般に識別不可能な因果構造が存在する.

変数集合間の条件付き独立性がDAG因果構造を忠実

に反映しているというfaithfulnessの仮定を必要とする．

従来の統計的因果推論の問題点

12121 : exbx

21212 : exbx

Model 1

Model 2

x1 x2

x1 x2

x2

X1

x3

x4

41 xx

41 xx 本来はだが，x2とx3を経由するx1の影響が互いに打ち消し合ってが成立．

41 xx d−separation

関数モデル上の統計的因果推論という新しい原理が研究されている。

従来の統計的因果推論の問題点の克服に向けて

最初の関数モデル上の統計的因果推論手法の提案 (Shimizu et al., UAI05,JMLR06,UAI09)

• “Many observed data are considerably non Gaussian.’’ (Micceri, 1989; Hyvarinen et al. 2001)

• 非ガウス成分を考えることで、変数間の因果構造は識別可能となる。

12121 : exbx

21212 : exbx

Model 1

Model 2

x1 x2

x1 x2

nnnn exbxbx

exbxbx

exbxbx

exbx

ex

3322

43431414

32321313

21212

11

互いに独立な

非ガウスの非観測外乱

LiNGAMモデル

(Linear Non-Gaussian

Acyclic Model)




ガウス性 v.s. 非ガウス性

Gaussian Non-Gaussian

121 : exx

212 : exx

Model 1

Model 2

x1

x2 x2

x1 x1

x2 x2

x1

•構造方程式モデル（Structural Equation Model:SEM） •各観測変数は連続確率変数． •変数間の因果関係は線形で有向非巡回グラフ(DAG)で表される． •各外乱は互いに独立で非ガウス揺らぎを持つ． •行列Bは行と列の同時入れ替えによって下三角化される．

提案手法：線形非正規非巡回モデル Linear Non-Gaussian Acyclic Model (LiNGAM model)

(Shimizu et al. UAI05)

eBxx i

ikjk

jiji exbx )()(

or

ix

ie

nnnn exbxbx

exbxbx

exbxbx

exbx

ex

3322

43431414

32321313

21212

11

1x

2x

3x

4x

nx

1e

2e

3e

4e

ne

DAG (Directed

Acyclic Graph)

Structure

x3

e3

具体例 • ３変数モデル

• 変数の因果的順序

–

– x2 はx1から影響を受けるが, x3からは影響を受けない．

• 外乱

– 外乱x1は外乱e1に等しい．x1を外生変数という．外生変数は最も上流の変数である．

– e2とe3は付加外乱あるいは誤差である．

B

323

212

11

3.1

5.1

exx

exx

ex

-1.3

3

2

1

3

2

1

3

2

1

03.10

005.1

000

e

e

e

x

x

x

x

x

x

3)3(,2)2(,1)1( kkk

x1

x2

1.5

e1

e2

提案手法(Shimizu et al.,UAI09) 変数間因果の判定(２変数の例)

i) が上流である.

t.independenNOTareand

t.independenareand

:

22

21

21212

ex

ex

exbx

)( 11 ex

t.independen areand 21 rx

1x

t.independenNOTareand

t.independenareand

:

11

12

12121

ex

ex

exbx

t.independenNOTareand 21 rx

x1とx2の回帰式 x1とx2の回帰式

1

1

122

1

1212

1

1

1222

)var(

),cov(

)var(

),cov(1

)var(

),cov(

ex

xxx

x

xxb

xx

xxxr

21

1

1222

)var(

),cov(ex

x

xxxr

ii) が上流でない.

提案手法独立性を測る尺度

• 厳密にはあらゆる非線形関数f,gの非線形相関ゼロを確認せねばならないが、現実には無理。

• 以下の非線形相関により近似的に変数とその残差の独立性を検定評価

tanh,corr,corr),( 212121 grxgrgxrxC fg

0

)()(

)()(

),(

1

2

2

1

2

1

1

21

21

n

i

n

i

n

ifg

rgxf

rgxf

rxC

独立性判定：非線形相関係数

（あらゆる非線形

関数f,gについて）

モデルの前提がデータで成立していれば，非線形相関の近似誤差を除いて，

この方法は必ず正しい唯一の因果構造を同定することが証明されている．

DirectLiNGAM: 直接的因果推論法 • 基本原理:

1. 前掲の回帰式法より最上流の外生変数を探す．

– 例えばが分かる．

– 回帰により最上流のx1の成分を他の変数データから除く．

2. “外生”の回帰残差を探す．

– 例えば．

残差の因果順序と元の変数の因果順序は一致する．

3. 最終的にが導かれる．

21

321 , xxx

x3

x1

x2

e1

e2 e3

ｒ3 ｒ2

e2 e3

32 rr

321 xxx

32 xx , i.e.,

DirectLiNGAM:まとめ

• 知っていること（あるいは仮定）

– データ Xはによって生成されている．

• 知らないこと

– 変数間の結合係数: ,

– 因果的順序: k(i),

– 各外乱: .

• データ Xのみ観測されている．

• データXのみからBとk,eが導びかれる！

22

eBxx

ie

ijb

標本サイズv.s.非ゼロ要素数（誤差）

DirectLiNGAM

DirectLiNGAM

DirectLiNGAM

DirectLiNGAM

LiNGAM

LiNGAM LiNGA

M

LiNGA

M

n = 30, 50, 80, 200, 500, 1000, 2000

p=10 p=20

p=50 p=100

log n

log n

log n

log n

変数が１００個程度のデータでも正確に因果構造を同定可能

脳波Magneto-encephalography data から導いた脳波源の影響関係

• 各手法により推定された因果構造:

(Original) LiNGAM DirectLiNGAM (proposed)

Exogenous Non-exogenous

関数モデル上の統計的因果推論の一般的原理について

DAG構造を有する一般的な関数モデル • 変数集合：X={x1,…,xp}

• Xiの親変数集合:PAi⊆{x1,…,xi} ⊆X

• Xiの外乱: ei

• 関数:

DDf iPA

i ||

:

),...,1(),(),(

),,(

piePAePePAPPA

ePAfx

iiiiii

iiii

fiは観測データの母集団分布P(X)を実現可能で，かつ我々が観測データの変数間に成立し得ると想定する，一定の関数クラスに属するものとする．

},...,1any for :|{ piDDffF i

関数モデル上の因果関係(1) • X中のxiの子孫以外の変数集合：NDi

• PAi⊆Si⊆NDiである変数集合Siにおいて，ある変数xj∈Pai

以外の変数集合Si＼{xj}による条件付き確率分布:P(xj|Si＼{xj})

• 各fi∈Fについてxj以外の引数を条件づけた２変数関数関係:xi=fi(xj,ei|Si＼{xj}}

定義１（関数モデル上の因果関係識別性）[Peters 2011]

かつ

}{\|}),{\|,(:

}{\|}),{\|,(

jijijijijjj

jiijjiijii

xSexxSexgxFg

xSexxSexfx

}{\|}{\|}),{\|,( jijijiijjiijii xSxxxSexxSexfx

jiij xxxx かつ

関数モデル上の因果関係(2)

• 関数モデル上の因果関係

ij xx

}){\|,(),,...,,...,( 11 jiijiiiijii xSexfxexxxfx

条件付け（固定）条件付け（固定）

ij ex 独立

の中には存在しない．同じ関数クラス

が向きの関数の立場を入れ替えた逆と

F

gxx jji

は独立ではない．と ji xx

ji xx

関数モデル上の因果関係(3) • 多変数の関数モデルでも，２変数の因果関係識別問題に帰着される．

定理１（関数モデルの因果構造の一意性）[Peters 2011]

観測データの母集団分布P(X)がDAG因果構造を有する関数モデルによって生成され，かつその各fiが定義1の条件付き２変数関数関係の識別性を有する時，P(X)はその因果構造以外から生成されることはない．

２変数の因果関係識別問題に帰着し， DAG因果構造を一意に同定可能．

識別性を有する２変数関数の色々

識別性を有する２変数関数(1) • 多変数の場合も２変数の因果関係識別問題に帰着されるので，２変数関数関係に着目する．

• 線形関係(LiNGAM) [Shimizu 2005]

• 非線形関係かつ加法的外乱 [Hoyer 2008]

識別性を有する．が非ガウス分布する

は定数．

以外を条件付ける．と

)(

,

,1

1

i

ijiji

ijji

i

j

jiji

ep

cecxbx

xPAxexbx

を有する．持たない限り，識別性

と極めて特殊な関係をが iij

ijii

fepxp

exfx

)(),(

)(

識別性を有する２変数関数(2) • Post-Nonlinear関係 [Zhang & Hyvarinen 2009]

))(( 1,2, ijiii exffx

必要十分条件は非常に複雑．実用的観点から以下に絞った識別性の十分条件を提示．・ fi,1とfi,2は３回微分可能．・ P(xj)とP(ei)は３回微分可能であり，ei ∈(-∞,+∞)でP(ei)>0で，高々有限個の点を除いてlog P(ei)の２回微分はゼロ．この両方の条件が成り立つ時，以下の何れかが成り立てばfiは識別性を持つ． 1. P(ei)がガウス分布，P(ei)=exp{c1exp(c2ei)+c3ei+c4}， P(ei)=c1{c2exp(c3ei)+c4exp(c5ei))}

c6の何れでもない． 2. fi,1の逆写像が存在しない．

識別性を有する２変数関数(3) • ブール関数関係 [Inazumi 2011]

• 整数値関数関係 [Peters 2011]

．，は }1,0{,,, ,

,

jiiji

ijjii

bexxEXOR

exbx

0<P(xj), P(ei)<1かつP(xj),P(ei) ≠0.5が識別性の必要十分条件．

IIfIexx

exfx

iiji

ijii

:,,,

)(

識別性の必要十分条件は，xi,xjが有界な場合とそうではない場合で異なる．何れも実用的には殆ど場合に識別性を持つ．

従来法との関係

従来の統計的因果推論の識別性

• 以下の２条件が識別性の必要条件

観測データの母集団分布P(X)とそのDAG因果構造G，互いに交わらないA,B,C⊂Xについて，

• マルコフ性 – A,B d-separated by C ⇒ A ⊥ B|C.

• 忠実性(Faithfulness) – A,B d-separated by C ⇐ A ⊥ B|C.

上記は必要条件であり，マルコフ同値な構造は識別できない．

マルコフ性に関する比較 • 従来法

– 観測データにおいて独立なAとBが，Cで条件付けた時に独立でない場合，マルコフ性よりCがcollider またはその下流変数を含むとして，A →C←Bを導出．

• 関数モデルに基づく方法 – 事前知識の識別性を有する関数クラスFと観測データから，２つの因果構造を仮定

xj→xi←ei ( xi=fi(xj,ei|Si＼{xj}) )

xi→xj←ej ( xj=fj(xi,ej|Sj＼{xi}) )

– Fに関する知識を利用して隠れ変数ei,ejを推定し，

xj⊥ei|Si＼{xj} or xi⊥ej|Sj＼{xi}

の何れが成り立つかを調べ，マルコフ性の条件が成立する

方を選択する．

どちらもマルコフ性の仮定を同様に使用している．

忠実性(Faithfulness)に関する比較 • 従来法

– 忠実性: A,B d-separated by C ⇐ A ⊥ B|Cを利用．

• 関数モデルに基づく方法[Peters 2011]

– 識別性の定義に含まれる以下を利用．

– は所与の前提なので書き換え可能．

DAG因果構造からそれ以上の辺を除くと母集団分布P(X)を生成できなくなるというCausal minimality条件．

}{\|}{\|}),{\|,( jijijiijjiijii xSxxxSexxSexfx

}{\|}){\|,( jijijiijii xSxxxSexfx

}{\| jiij xSex

Faithfulnessが成立するならCausal minimalityも成立．つまり，Causal minimalityのカバーする範囲の方が広い．従って，関数モデル上の統計的因果推論は，従来法より適用範囲が広い．

関数モデル上の統計的因果推論の課題

関数クラスFが満たすべき条件

1. 観測データの母集団分布P(X)を実現可能，かつ

2. 我々が観測データの変数間に成立し得ると想定するもの．

任意の分布P(X)について生成可能な関数xi=fi(PAi,ei) (ただし, PAi⊥ei)が必ず存在する [Darmios 1951]ので，条件1は必ず満たされる．

条件2について更に掘り下げた研究が必要である．

２値データへの適用

BExSAM [Inazumi et al., 2011, UAI]

40

x1

x2

x3 x4

e1

e2

e3 e4 xi: 観測変数 ei : 外乱ノイズ fi: xi の親変数からなる任意のブール関数

終点内生変数

0 < p(ei=1) < 1 かつ p(ei=1) ≠ 0.5

この仮定により一意に同定できる．

推定アルゴリズムの流れ [Inazumi et al., 2011, UAI]

• すべての DAG 構造が求まるまで以下を繰り返す． 1. 順序推定ステップ: 終点内生変数 xsink を推定する（後述）．

2. 親変数推定ステップ: xsink の親変数の集合を推定する（後述）．

3. 変数削減ステップ: xsink をモデルから取り除く．

41

x1

x2

x3 x4

e1

e2

e3 e4

終点内生変数 xsink x1

x2

x3 x4

e1

e2

e3 e4

1. 順序推定ステップ 2. 親変数推定ステップ

×

順序推定ステップ [Inazumi et al., 2011, UAI]

• 例: 3変数モデル

• 行を終点内生変数 x3，列を残りの変数 x1, x2 とした度数分布表

42

x3 ＼ (x1, x2) (1,1) (1,0) (0,1) (0,0)

1 20 15 40 10

0 10 30 20 20

2：1 1：2 2：1 1：2

すべての列について，比率が 1:2 または 2:1 になる．

p(e3=1) = 1/3

定理 2. x3 が終点内生変数である ⇔ すべての (x1, x2) の値の組み合わせについて， p(x3 = 1 | x1, x2) = q または 1–q となる共通の定数 q が存在する．

親変数推定ステップ (1/2) [Inazumi et al., 2011, UAI]


• 行を終点内生変数 x3，列を親でない変数 x1 とした度数分布表

43

x3 ＼ x1 1 0

1 20 40

0 10 20

p(e3=1) = 1/3

x3 ＼ x1 1 0

1 15 10

0 30 20

x2 = 1 のとき x2 = 0 のとき

独立独立

親変数推定ステップ (2/2) [Inazumi et al., 2011, UAI]


• 行を終点内生変数 x3，列を親である変数 x2 とした度数分布表

44

x3 ＼ x2 1 0

1 20 15

0 10 30

p(e3=1) = 1/3

x3 ＼ x2 1 0

1 40 10

0 20 20

x1 = 1 のとき x1 = 0 のとき

独立でない独立でない

命題 1. x3 を終点内生変数とする． x1 が x3 の親でない ⇔ すべての x2 の値について， p(x3 = 1 | x1 = 1, x2) = p(x3 = 1 | x1 = 0, x2) が成り立つ．

G検定による独立性の検定 [Sokal and Rohlf, 1995]

• k 値を取るカテゴリ変数 X， l 値を取るカテゴリ変数 Y に関する k × l 分割表

• 帰無仮説「X, Y が独立」に関する対数尤度比 G

• 対数尤度比 G が n → ∞ のとき漸近的に自由度 ν = (k–1)(l–1) のカイ自乗分布 χν

2 に従うことを利用して検定を行う．

45

X ＼ Y 1 … l 計

1 O11 … O1l O1*

… … … … …

k Ok1 … Okl Ok*

計 O*1 … O*l n

観測度数 Oij

帰無仮説が成り立つときの期待度数

Gスコアによる順序推定 • 行を終点内生変数 x3，列を残りの変数 x1, x2 とした度数分布表

46

(x1, x2) (1,1) (1,0) (0,1) (0,0)

度数小 10 15 20 20

度数大 20 30 40 40

列に関して，度数の小さい順にソートする．

この分割表は独立となる． → この分割表に対する G 統計量を計算し，G スコア SG(x3) とする． x3 が終点内生変数のとき SG(x3) は最小値ゼロを取る．

x3 ＼ (x1, x2) (1,1) (1,0) (0,1) (0,0)

1 20 15 40 10

0 10 30 20 20

比率が 1:2 の場合と 2:1 の場合があるので，この分割表自体は独立ではない．

人工データによる評価 • 6変数の場合について，BExSAM の構造をランダムに生成し，さらに各 p(ei=1) を {0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9} からランダムに選択し，データを生成した．

• エラー率 ERs は次で定義される:

ERs =

すべての取り得る辺の数

同定を誤った辺の数有向辺辺なし

有向辺 a b

辺なし c d

= a+b+c+d

b+c

0

0.2

0.4

0.6

100 1000 10000

サンプルサイズ n

エラー率 ERs の比較

Gスコア，G検定エントロピースコア，Z検定

従来手法３つとの比較 • Y構造 [Mani 2006] を持つBExSAM について20回の試行．

x1

x2

x3 x4

有向辺辺なし無向辺

有向辺 42 4 14

辺なし 0 166 14

CPC アルゴリズム [Ramsey 2006]


有向辺 41 13 6

辺なし 9 165 6

PC アルゴリズム [Spirtes 2000]


有向辺 38 6 16

辺なし 0 164 16

GES アルゴリズム [Chickering 2002]


有向辺 57 3 0

辺なし 2 178 0

提案手法

実データへの適用 • ウィスコンシン州の高校生の大学進学意思に関するデータ

[Sewell and Shah, 1968], [Spirtes et al., 2000]

• 比較的高い社会的ステータスを持つ男子高校生 3841 人を選択．

• 推定された生成過程を示す．これは，[Spirtes et al., 2000] で述べられている仮説と一致する

知能指数の高低

親の働き掛けの高低

大学進学意思の有無

むすび

• 関数モデル上の統計的因果推論に関する最近の代表的研究について概観・議論

–従来の因果推論・構造学習の原理との関係を簡単に論じた．

• 更に例として，

–関数モデルが連続線形であらわされる場合の清水等我々の研究について紹介

–関数モデルが２値変数間ブール関数であらわされる場合の稲積等我々の研究について紹介

関数モデル上の 統計的因果推論研究の現状 ·...

Documents

関数モデル上の統計的因果推論研究の現状 ·...