関数モデル上の 統計的因果推論研究の現状 ·...

50
関数モデル上の 統計的因果推論研究の現状 20111125北海道大学大学院 情報科学研究科 ERATO連携講座大学院特論科目(4集中講義「大規模離散計算科学特論」 客員教授 鷲尾隆(大阪大学産業科学研究所)

Upload: others

Post on 08-Mar-2020

6 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の 統計的因果推論研究の現状

2011年11月25日 北海道大学大学院 情報科学研究科 湊ERATO連携講座大学院特論科目(4) 集中講義「大規模離散計算科学特論」

客員教授 鷲尾隆(大阪大学産業科学研究所)

Page 2: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

統計的因果推論(グラフィカルモデリング)の概観 因果構造の学習(構造学習)や因果強度の学習(パラメータ学習)

nnnn exbxbx

exbxbx

exbxbx

exbx

ex

3322

43431414

32321313

21212

11

1x

2x

3x

4x

nx

1e

2e

3e

4e

neデータ生成順序を表す有向非巡回グラフ

DAG (Directed Acyclic Graph)

データと人間の背景知識から

変数間の決定関係(変数

データ生成過程)を推定

データ

共分散構造分析

変数間決定関係を線形モデルで同定

),,,|(

) ,|(

) ,|(

)|(

)(

131

314

213

12

1

nn xxxxp

xxxp

xxxp

xxp

xp

ベイジアンネットワーク

変数間決定関係を確率モデルで同定

バイオインフォマティクスやマーケティングなどで多用される解析手法

互いに独立な

非観測外乱

Page 3: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

遺伝子発現順序解明への応用

ベイジアンネットワーク構造学習や

統計的因果推論の適用

マイクロアレー

遺伝子発現

プロフィールデータ

DAG因果構造ネットワークの推定

遺伝子機能の解明など

Page 4: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

統計的因果推論の基本原理(1)

• 変数集合V=X+Y+Z (X,Y,Zは互いに交わらない)

• 条件付き独立

• マルコフ性の仮定

– DAG因果構造上でXとYがZにより分離されている⇒

)|()|()|,(| ZYpZXpZYXpZYX

ZYX |

X

Z Y

Page 5: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

統計的因果推論の基本原理(2) • DAGの基本構造

– Serial Connection: x → z → y

– Diverging Connection: x ← z → y

– Converging Connection: x → z ← y (z: collider)

• d−connectionとd−separation

– Xのある変数xとYのある変数yを辺の向きを無視して結ぶパス上の各colliderについて,collider自身かその下流変数を含み,パス上の非colliderを含まない時かつその時に限り,ZはXとYのd(directed)−connectionという.

– ZはXとYのd−connectionでなければd(directed)−separationという.

Page 6: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

統計的因果推論の基本原理(3)

• d−connectionとd−separationの例

– d−connection d−separation

X Y

Z

X Y

Z

ZYX | ZYX |マルコフ性より

Page 7: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

統計的因果推論の基本原理(4) • Faithfulness(忠実度)の仮定

– ⇒ZはXとYのd-separationである.

– もっと平易にいうと変数集合間の条件付き独立性がDAG因果構造を忠実に反映していること.

ZYX |

X Y

Z ZYX |

Page 8: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

統計的因果推論の代表的アルゴリズム

• 対象変数の個数について指数的にDAG因果構造の

解空間が広がるため,効率的な解候補絞り込み原理・方法が研究されて来た.

– 制約ベース(PCアルゴリズムなど)[Spirtes et al. 2000]

変数間に観測される条件付き独立性からFaithfulnessの 仮定とDAGの性質から,変数間のDAG因果構造を推定する.

– スコアベース(GESアルゴリズムなど)[Chickering 2002]

変数間に観測される条件付き独立性, Faithfulnessの仮定とDAGの性質を利用しながら,ベイズスコアが最大になる変数間のDAG因果構造を推定する.

Page 9: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

PCアルゴリズム(制約ベース)

• 変数集合Vに関するデータDが与えられた時, 1. Vの任意の変数ペアx,yについて なる

が存在しなければ,xとyの間に

無向辺を付与する.

2. Vの任意の非隣接変数ペアx,yについて,x,yが共通の隣接変数zを有し,それが を満たす何れのSxyにも属さないなら, x → z ← yとする.

3. 新たなv-構造(x → z ← y)や閉路を生成しない限り,各辺の向きを決める.

xySyx |

},{\ yxVSxy

xySyx |

Page 10: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

PCアルゴリズム(制約ベース) • 例)V={x1,x2,x3,x4}

1. となる

が見つからない.

2. x1とx2の共通の隣接変数x3は なる何れの に属さない.

3. 新たなv-構造(x → z ← y)や閉路を作らないように残りの辺の向きを決める.

433231|,|,| 433231 xxxxxx SxxSxxSxx

VSSS xxxxxx 433231

,,

x1 x2

x3

x4

21|21 xxSxx

21xxS

x1 x2

x3

x4

x1 x2

x3

x4

Page 11: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

GESアルゴリズム(スコアベース) • 変数集合Vに関するデータDが与えられた時,

–初期のDAG構造gから始めて,Dが示す変数間独立性を満たすようにgの辺の向きの変更,新たな辺の追加を行う.

–ベイズスコア が最大になるDAG構造gをGreedyに探す.

• 例)

)|(ln)(ln),( gDpgpDgSB

x1 x2

x3

x4

x1 x2

x3

x4

x1 x2

x3

x4

x1 x2

x3

x4

),(),(),(),( 3210 DgSDgSDgSDgS BBBB

Page 12: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

Bayesian network and nonparametric

hetero-scedastic regression model (Imoto et

al. 2003)

nxx ,,1

n

スコアベース統計的因果推論の応用

ij

j

iqjq

j

ijij epmpmxjj 11

p

i

jijijjGi pxfxf1

;|;

n枚のマイクロアレー

最大事後確率(MAP)解の最良優先探索

Page 13: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

変数値分布の独立性が同じ(Markov同値)解や局所最適なスコアを持つ解などが複数存在する。従って,一般に識別不可能な因果構造が存在する.

変数集合間の条件付き独立性がDAG因果構造を忠実

に反映しているというfaithfulnessの仮定を必要とする.

従来の統計的因果推論の問題点

12121 : exbx

21212 : exbx

Model 1

Model 2

x1 x2

x1 x2

x2

X1

x3

x4

41 xx

41 xx 本来は だが,x2とx3を経由するx1の 影響が互いに打ち消し合って が成立.

41 xx d−separation

Page 14: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の統計的因果推論という新しい原理が研究されている。

従来の統計的因果推論の問題点の克服に向けて

Page 15: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

最初の関数モデル上の統計的因果推論手法の提案 (Shimizu et al., UAI05,JMLR06,UAI09)

• “Many observed data are considerably non Gaussian.’’ (Micceri, 1989; Hyvarinen et al. 2001)

• 非ガウス成分を考えることで、変数間の因果構造は 識別可能となる。

12121 : exbx

21212 : exbx

Model 1

Model 2

x1 x2

x1 x2

nnnn exbxbx

exbxbx

exbxbx

exbx

ex

3322

43431414

32321313

21212

11

互いに独立な

非ガウスの 非観測外乱

LiNGAMモデル

(Linear Non-Gaussian

Acyclic Model)

Page 16: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

ガウス性 v.s. 非ガウス性

Gaussian Non-Gaussian

121 : exx

212 : exx

Model 1

Model 2

x1

x2 x2

x1 x1

x2 x2

x1

Page 17: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

•構造方程式モデル(Structural Equation Model:SEM) •各観測変数 は連続確率変数. •変数間の因果関係は線形で有向非巡回グラフ(DAG)で表される. •各外乱 は互いに独立で非ガウス揺らぎを持つ. •行列Bは行と列の同時入れ替えによって下三角化される.

提案手法:線形非正規非巡回モデル Linear Non-Gaussian Acyclic Model (LiNGAM model)

(Shimizu et al. UAI05)

eBxx i

ikjk

jiji exbx )()(

or

ix

ie

nnnn exbxbx

exbxbx

exbxbx

exbx

ex

3322

43431414

32321313

21212

11

1x

2x

3x

4x

nx

1e

2e

3e

4e

ne

DAG (Directed

Acyclic Graph)

Structure

Page 18: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

x3

e3

具体例 • 3変数モデル

• 変数の因果的順序

– x2 はx1から影響を受けるが, x3からは影響を受けない.

• 外乱

– 外乱x1は外乱e1に等しい.x1を外生変数という.外生変数は最も上流の変数である.

– e2とe3は付加外乱あるいは誤差 である.

B

323

212

11

3.1

5.1

exx

exx

ex

-1.3

3

2

1

3

2

1

3

2

1

03.10

005.1

000

e

e

e

x

x

x

x

x

x

3)3(,2)2(,1)1( kkk

x1

x2

1.5

e1

e2

Page 19: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

提案手法(Shimizu et al.,UAI09) 変数間因果の判定(2変数の例)

i) が上流である.

t.independenNOTareand

t.independenareand

:

22

21

21212

ex

ex

exbx

)( 11 ex

t.independen areand 21 rx

1x

t.independenNOTareand

t.independenareand

:

11

12

12121

ex

ex

exbx

t.independenNOTareand 21 rx

x1とx2の回帰式 x1とx2の回帰式

1

1

122

1

1212

1

1

1222

)var(

),cov(

)var(

),cov(1

)var(

),cov(

ex

xxx

x

xxb

xx

xxxr

21

1

1222

)var(

),cov(ex

x

xxxr

ii) が上流でない.

Page 20: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

提案手法 独立性を測る尺度

• 厳密にはあらゆる非線形関数f,gの非線形相関ゼロを確認せねばならないが、現実には無理。

• 以下の非線形相関により近似的に変数とその残差の独立性を検定評価

tanh,corr,corr),( 212121 grxgrgxrxC fg

0

)()(

)()(

),(

1

2

2

1

2

1

1

21

21

n

i

n

i

n

ifg

rgxf

rgxf

rxC

独立性判定:非線形相関係数

(あらゆる非線形

関数f,gについて)

モデルの前提がデータで成立していれば,非線形相関の近似誤差を除いて,

この方法は必ず正しい唯一の因果構造を同定することが証明されている.

Page 21: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

DirectLiNGAM: 直接的因果推論法 • 基本原理:

1. 前掲の回帰式法より最上流の外生変数を探す.

– 例えば が分かる.

– 回帰により最上流のx1の成分を他の変数データから除く.

2. “外生”の回帰残差を探す.

– 例えば .

残差の因果順序と元の変数の因果順序は一致する.

3. 最終的に が導かれる.

21

321 , xxx

x3

x1

x2

e1

e2 e3

r3 r2

e2 e3

32 rr

321 xxx

32 xx , i.e.,

Page 22: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

DirectLiNGAM:まとめ

• 知っていること(あるいは仮定)

– データ Xは によって生成されている.

• 知らないこと

– 変数間の結合係数: ,

– 因果的順序: k(i),

– 各外乱: .

• データ Xのみ観測されている.

• データXのみからBとk,eが導びかれる!

22

eBxx

ie

ijb

Page 23: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

標本サイズv.s.非ゼロ要素数(誤差)

DirectLiNGAM

DirectLiNGAM

DirectLiNGAM

DirectLiNGAM

LiNGAM

LiNGAM LiNGA

M

LiNGA

M

n = 30, 50, 80, 200, 500, 1000, 2000

p=10 p=20

p=50 p=100

log n

log n

log n

log n

変数が100個程度のデータでも正確に因果構造を同定可能

Page 24: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

脳波Magneto-encephalography data から導いた脳波源の影響関係

• 各手法により推定された因果構造:

(Original) LiNGAM DirectLiNGAM (proposed)

Exogenous Non-exogenous

Page 25: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の統計的因果推論の一般的原理について

Page 26: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

DAG構造を有する一般的な関数モデル • 変数集合:X={x1,…,xp}

• Xiの親変数集合:PAi⊆{x1,…,xi} ⊆X

• Xiの外乱: ei

• 関数:

DDf iPA

i ||

:

),...,1(),(),(

),,(

piePAePePAPPA

ePAfx

iiiiii

iiii

fiは観測データの母集団分布P(X)を実現可能で,かつ 我々が観測データの変数間に成立し得ると想定する, 一定の関数クラス に属するものとする.

},...,1any for :|{ piDDffF i

Page 27: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の因果関係(1) • X中のxiの子孫以外の変数集合:NDi

• PAi⊆Si⊆NDiである変数集合Siにおいて,ある変数xj∈Pai

以外の変数集合Si\{xj}による条件付き確率分布:P(xj|Si\{xj})

• 各fi∈Fについてxj以外の引数を条件づけた2変数関数関係:xi=fi(xj,ei|Si\{xj}}

定義1(関数モデル上の因果関係識別性)[Peters 2011]

かつ

}{\|}),{\|,(:

}{\|}),{\|,(

jijijijijjj

jiijjiijii

xSexxSexgxFg

xSexxSexfx

}{\|}{\|}),{\|,( jijijiijjiijii xSxxxSexxSexfx

jiij xxxx かつ

Page 28: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の因果関係(2)

• 関数モデル上の因果関係

ij xx

}){\|,(),,...,,...,( 11 jiijiiiijii xSexfxexxxfx

条件付け(固定) 条件付け(固定)

ij ex 独立

の中には存在しない.同じ関数クラス

が向きの関数の立場を入れ替えた逆と

F

gxx jji

は独立ではない.と ji xx

ji xx

Page 29: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の因果関係(3) • 多変数の関数モデルでも,2変数の因果関係識別問題に帰着される.

定理1(関数モデルの因果構造の一意性)[Peters 2011]

観測データの母集団分布P(X)がDAG因果構造を有する関数モデルによって生成され,かつその各fiが定義1の条件付き2変数関数関係の識別性を有する時,P(X)はその因果構造以外から生成されることはない.

2変数の因果関係識別問題に帰着し, DAG因果構造を一意に同定可能.

Page 30: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

識別性を有する2変数関数の色々

Page 31: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

識別性を有する2変数関数(1) • 多変数の場合も2変数の因果関係識別問題に帰着されるので,2変数関数関係に着目する.

• 線形関係(LiNGAM) [Shimizu 2005]

• 非線形関係かつ加法的外乱 [Hoyer 2008]

識別性を有する.が非ガウス分布する

は定数.

以外を条件付ける.と

)(

,

,1

1

i

ijiji

ijji

i

j

jiji

ep

cecxbx

xPAxexbx

を有する.持たない限り,識別性

と極めて特殊な関係をが iij

ijii

fepxp

exfx

)(),(

)(

Page 32: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

識別性を有する2変数関数(2) • Post-Nonlinear関係 [Zhang & Hyvarinen 2009]

))(( 1,2, ijiii exffx

必要十分条件は非常に複雑. 実用的観点から以下に絞った識別性の十分条件を提示. ・ fi,1とfi,2は3回微分可能. ・ P(xj)とP(ei)は3回微分可能であり,ei ∈(-∞,+∞)でP(ei)>0で, 高々有限個の点を除いてlog P(ei)の2回微分はゼロ. この両方の条件が成り立つ時, 以下の何れかが成り立てばfiは識別性を持つ. 1. P(ei)がガウス分布,P(ei)=exp{c1exp(c2ei)+c3ei+c4}, P(ei)=c1{c2exp(c3ei)+c4exp(c5ei))}

c6の何れでもない. 2. fi,1の逆写像が存在しない.

Page 33: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

識別性を有する2変数関数(3) • ブール関数関係 [Inazumi 2011]

• 整数値関数関係 [Peters 2011]

.,は }1,0{,,, ,

,

jiiji

ijjii

bexxEXOR

exbx

0<P(xj), P(ei)<1かつP(xj),P(ei) ≠0.5が識別性の必要十分条件.

IIfIexx

exfx

iiji

ijii

:,,,

)(

識別性の必要十分条件は,xi,xjが有界な場合とそうではない場合で異なる.何れも実用的には殆ど場合に識別性を持つ.

Page 34: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

従来法との関係

Page 35: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

従来の統計的因果推論の識別性

• 以下の2条件が識別性の必要条件

観測データの母集団分布P(X)とそのDAG因果構造G,互いに交わらないA,B,C⊂Xについて,

• マルコフ性 – A,B d-separated by C ⇒ A ⊥ B|C.

• 忠実性(Faithfulness) – A,B d-separated by C ⇐ A ⊥ B|C.

上記は必要条件であり,マルコフ同値な構造は識別できない.

Page 36: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

マルコフ性に関する比較 • 従来法

– 観測データにおいて独立なAとBが,Cで条件付けた時に独立でない場合,マルコフ性よりCがcollider またはその下流変数を含むとして,A →C←Bを導出.

• 関数モデルに基づく方法 – 事前知識の識別性を有する関数クラスFと観測データから,2つの因果構造を仮定

xj→xi←ei ( xi=fi(xj,ei|Si\{xj}) )

xi→xj←ej ( xj=fj(xi,ej|Sj\{xi}) )

– Fに関する知識を利用して隠れ変数ei,ejを推定し,

xj⊥ei|Si\{xj} or xi⊥ej|Sj\{xi}

の何れが成り立つかを調べ,マルコフ性の条件が成立する

方を選択する.

どちらもマルコフ性の仮定を同様に使用している.

Page 37: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

忠実性(Faithfulness)に関する比較 • 従来法

– 忠実性: A,B d-separated by C ⇐ A ⊥ B|Cを利用.

• 関数モデルに基づく方法[Peters 2011]

– 識別性の定義に含まれる以下を利用.

– は所与の前提なので書き換え可能.

DAG因果構造からそれ以上の辺を除くと母集団分布P(X)を生成できなくなるというCausal minimality条件.

}{\|}{\|}),{\|,( jijijiijjiijii xSxxxSexxSexfx

}{\|}){\|,( jijijiijii xSxxxSexfx

}{\| jiij xSex

Faithfulnessが成立するならCausal minimalityも成立. つまり,Causal minimalityのカバーする範囲の方が広い. 従って,関数モデル上の統計的因果推論は,従来法より 適用範囲が広い.

Page 38: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

関数モデル上の統計的因果推論の課題

関数クラスFが満たすべき条件

1. 観測データの母集団分布P(X)を実現可能,かつ

2. 我々が観測データの変数間に成立し得ると想定するもの.

任意の分布P(X)について生成可能な関数xi=fi(PAi,ei) (ただし, PAi⊥ei)が必ず存在する [Darmios 1951]ので,条件1は必ず満たされる.

条件2について更に掘り下げた研究が必要である.

Page 39: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

2値データへの適用

Page 40: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

BExSAM [Inazumi et al., 2011, UAI]

40

x1

x2

x3 x4

e1

e2

e3 e4 xi: 観測変数 ei : 外乱ノイズ fi: xi の親変数からなる任意のブール関数

終点内生変数

0 < p(ei=1) < 1 かつ p(ei=1) ≠ 0.5

この仮定により 一意に同定できる.

Page 41: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

推定アルゴリズムの流れ [Inazumi et al., 2011, UAI]

• すべての DAG 構造が求まるまで 以下を繰り返す. 1. 順序推定ステップ: 終点内生変数 xsink を推定する(後述).

2. 親変数推定ステップ: xsink の親変数の集合を推定する(後述) .

3. 変数削減ステップ: xsink をモデルから取り除く.

41

x1

x2

x3 x4

e1

e2

e3 e4

終点内生変数 xsink x1

x2

x3 x4

e1

e2

e3 e4

1. 順序推定ステップ 2. 親変数推定ステップ

×

Page 42: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

順序推定ステップ [Inazumi et al., 2011, UAI]

• 例: 3変数モデル

• 行を終点内生変数 x3,列を残りの変数 x1, x2 とした度数分布表

42

x3 \ (x1, x2) (1,1) (1,0) (0,1) (0,0)

1 20 15 40 10

0 10 30 20 20

2:1 1:2 2:1 1:2

すべての列について, 比率が 1:2 または 2:1 になる.

p(e3=1) = 1/3

定理 2. x3 が終点内生変数である ⇔ すべての (x1, x2) の値の組み合わせについて, p(x3 = 1 | x1, x2) = q または 1–q となる共通の定数 q が存在する.

Page 43: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

親変数推定ステップ (1/2) [Inazumi et al., 2011, UAI]

• 例: 3変数モデル

• 行を終点内生変数 x3,列を親でない変数 x1 とした度数分布表

43

x3 \ x1 1 0

1 20 40

0 10 20

p(e3=1) = 1/3

x3 \ x1 1 0

1 15 10

0 30 20

x2 = 1 のとき x2 = 0 のとき

独立 独立

Page 44: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

親変数推定ステップ (2/2) [Inazumi et al., 2011, UAI]

• 例: 3変数モデル

• 行を終点内生変数 x3,列を親である変数 x2 とした度数分布表

44

x3 \ x2 1 0

1 20 15

0 10 30

p(e3=1) = 1/3

x3 \ x2 1 0

1 40 10

0 20 20

x1 = 1 のとき x1 = 0 のとき

独立でない 独立でない

命題 1. x3 を終点内生変数とする. x1 が x3 の親でない ⇔ すべての x2 の値について, p(x3 = 1 | x1 = 1, x2) = p(x3 = 1 | x1 = 0, x2) が成り立つ.

Page 45: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

G検定による独立性の検定 [Sokal and Rohlf, 1995]

• k 値を取るカテゴリ変数 X, l 値を取るカテゴリ変数 Y に 関する k × l 分割表

• 帰無仮説「X, Y が独立」に関する対数尤度比 G

• 対数尤度比 G が n → ∞ のとき漸近的に 自由度 ν = (k–1)(l–1) のカイ自乗分布 χν

2 に 従うことを利用して検定を行う.

45

X \ Y 1 … l 計

1 O11 … O1l O1*

… … … … …

k Ok1 … Okl Ok*

計 O*1 … O*l n

観測度数 Oij

帰無仮説が成り立つときの期待度数

Page 46: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

Gスコアによる順序推定 • 行を終点内生変数 x3, 列を残りの変数 x1, x2 とした度数分布表

46

(x1, x2) (1,1) (1,0) (0,1) (0,0)

度数小 10 15 20 20

度数大 20 30 40 40

列に関して,度数の小さい順にソートする.

この分割表は独立となる. → この分割表に対する G 統計量 を計算し,G スコア SG(x3) とする. x3 が終点内生変数のとき SG(x3) は最小値ゼロを取る.

x3 \ (x1, x2) (1,1) (1,0) (0,1) (0,0)

1 20 15 40 10

0 10 30 20 20

比率が 1:2 の場合と 2:1 の場合があるので, この分割表自体は独立ではない.

Page 47: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

人工データによる評価 • 6変数の場合について,BExSAM の構造をランダムに生成し,さらに各 p(ei=1) を {0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9} からランダムに選択し,データを生成した.

• エラー率 ERs は次で定義される:

ERs =

すべての取り得る辺の数

同定を誤った辺の数 有向辺 辺なし

有向辺 a b

辺なし c d

= a+b+c+d

b+c

0

0.2

0.4

0.6

100 1000 10000

サンプルサイズ n

エラー率 ERs の比較

Gスコア,G検定 エントロピースコア,Z検定

Page 48: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

従来手法3つとの比較 • Y構造 [Mani 2006] を持つBExSAM について20回の試行.

x1

x2

x3 x4

有向辺 辺なし 無向辺

有向辺 42 4 14

辺なし 0 166 14

CPC アルゴリズム [Ramsey 2006]

有向辺 辺なし 無向辺

有向辺 41 13 6

辺なし 9 165 6

PC アルゴリズム [Spirtes 2000]

有向辺 辺なし 無向辺

有向辺 38 6 16

辺なし 0 164 16

GES アルゴリズム [Chickering 2002]

有向辺 辺なし 無向辺

有向辺 57 3 0

辺なし 2 178 0

提案手法

Page 49: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

実データへの適用 • ウィスコンシン州の高校生の大学進学意思に関するデータ

[Sewell and Shah, 1968], [Spirtes et al., 2000]

• 比較的高い社会的ステータスを持つ男子高校生 3841 人を選択.

• 推定された生成過程を示す.これは,[Spirtes et al., 2000] で述べられている仮説と一致する

知能指数の 高低

親の働き掛けの高低

大学進学意思の有無

Page 50: 関数モデル上の 統計的因果推論研究の現状 · 遺伝子発現順序解明への応用 ベイジアンネットワーク構造学習や 統計的因果推論の適用

むすび

• 関数モデル上の統計的因果推論に関する最近の代表的研究について概観・議論

–従来の因果推論・構造学習の原理との関係を簡単に論じた.

• 更に例として,

–関数モデルが連続線形であらわされる場合の清水等我々の研究について紹介

–関数モデルが2値変数間ブール関数であらわされる場合の稲積等我々の研究について紹介