関数モデル上の 統計的因果推論研究の現状 ·...
TRANSCRIPT
関数モデル上の 統計的因果推論研究の現状
2011年11月25日 北海道大学大学院 情報科学研究科 湊ERATO連携講座大学院特論科目(4) 集中講義「大規模離散計算科学特論」
客員教授 鷲尾隆(大阪大学産業科学研究所)
統計的因果推論(グラフィカルモデリング)の概観 因果構造の学習(構造学習)や因果強度の学習(パラメータ学習)
nnnn exbxbx
exbxbx
exbxbx
exbx
ex
3322
43431414
32321313
21212
11
1x
2x
3x
4x
nx
1e
2e
3e
4e
neデータ生成順序を表す有向非巡回グラフ
DAG (Directed Acyclic Graph)
データと人間の背景知識から
変数間の決定関係(変数
データ生成過程)を推定
データ
共分散構造分析
変数間決定関係を線形モデルで同定
),,,|(
) ,|(
) ,|(
)|(
)(
131
314
213
12
1
nn xxxxp
xxxp
xxxp
xxp
xp
ベイジアンネットワーク
変数間決定関係を確率モデルで同定
バイオインフォマティクスやマーケティングなどで多用される解析手法
互いに独立な
非観測外乱
遺伝子発現順序解明への応用
ベイジアンネットワーク構造学習や
統計的因果推論の適用
マイクロアレー
遺伝子発現
プロフィールデータ
DAG因果構造ネットワークの推定
遺伝子機能の解明など
統計的因果推論の基本原理(1)
• 変数集合V=X+Y+Z (X,Y,Zは互いに交わらない)
• 条件付き独立
• マルコフ性の仮定
– DAG因果構造上でXとYがZにより分離されている⇒
)|()|()|,(| ZYpZXpZYXpZYX
ZYX |
X
Z Y
統計的因果推論の基本原理(2) • DAGの基本構造
– Serial Connection: x → z → y
– Diverging Connection: x ← z → y
– Converging Connection: x → z ← y (z: collider)
• d−connectionとd−separation
– Xのある変数xとYのある変数yを辺の向きを無視して結ぶパス上の各colliderについて,collider自身かその下流変数を含み,パス上の非colliderを含まない時かつその時に限り,ZはXとYのd(directed)−connectionという.
– ZはXとYのd−connectionでなければd(directed)−separationという.
統計的因果推論の基本原理(3)
• d−connectionとd−separationの例
– d−connection d−separation
X Y
Z
X Y
Z
ZYX | ZYX |マルコフ性より
統計的因果推論の基本原理(4) • Faithfulness(忠実度)の仮定
– ⇒ZはXとYのd-separationである.
– もっと平易にいうと変数集合間の条件付き独立性がDAG因果構造を忠実に反映していること.
ZYX |
X Y
Z ZYX |
統計的因果推論の代表的アルゴリズム
• 対象変数の個数について指数的にDAG因果構造の
解空間が広がるため,効率的な解候補絞り込み原理・方法が研究されて来た.
– 制約ベース(PCアルゴリズムなど)[Spirtes et al. 2000]
変数間に観測される条件付き独立性からFaithfulnessの 仮定とDAGの性質から,変数間のDAG因果構造を推定する.
– スコアベース(GESアルゴリズムなど)[Chickering 2002]
変数間に観測される条件付き独立性, Faithfulnessの仮定とDAGの性質を利用しながら,ベイズスコアが最大になる変数間のDAG因果構造を推定する.
PCアルゴリズム(制約ベース)
• 変数集合Vに関するデータDが与えられた時, 1. Vの任意の変数ペアx,yについて なる
が存在しなければ,xとyの間に
無向辺を付与する.
2. Vの任意の非隣接変数ペアx,yについて,x,yが共通の隣接変数zを有し,それが を満たす何れのSxyにも属さないなら, x → z ← yとする.
3. 新たなv-構造(x → z ← y)や閉路を生成しない限り,各辺の向きを決める.
xySyx |
},{\ yxVSxy
xySyx |
PCアルゴリズム(制約ベース) • 例)V={x1,x2,x3,x4}
1. となる
が見つからない.
2. x1とx2の共通の隣接変数x3は なる何れの に属さない.
3. 新たなv-構造(x → z ← y)や閉路を作らないように残りの辺の向きを決める.
433231|,|,| 433231 xxxxxx SxxSxxSxx
VSSS xxxxxx 433231
,,
x1 x2
x3
x4
21|21 xxSxx
21xxS
x1 x2
x3
x4
x1 x2
x3
x4
GESアルゴリズム(スコアベース) • 変数集合Vに関するデータDが与えられた時,
–初期のDAG構造gから始めて,Dが示す変数間独立性を満たすようにgの辺の向きの変更,新たな辺の追加を行う.
–ベイズスコア が最大になるDAG構造gをGreedyに探す.
• 例)
)|(ln)(ln),( gDpgpDgSB
x1 x2
x3
x4
x1 x2
x3
x4
x1 x2
x3
x4
x1 x2
x3
x4
),(),(),(),( 3210 DgSDgSDgSDgS BBBB
Bayesian network and nonparametric
hetero-scedastic regression model (Imoto et
al. 2003)
nxx ,,1
n
スコアベース統計的因果推論の応用
ij
j
iqjq
j
ijij epmpmxjj 11
p
i
jijijjGi pxfxf1
;|;
n枚のマイクロアレー
最大事後確率(MAP)解の最良優先探索
変数値分布の独立性が同じ(Markov同値)解や局所最適なスコアを持つ解などが複数存在する。従って,一般に識別不可能な因果構造が存在する.
変数集合間の条件付き独立性がDAG因果構造を忠実
に反映しているというfaithfulnessの仮定を必要とする.
従来の統計的因果推論の問題点
12121 : exbx
21212 : exbx
Model 1
Model 2
x1 x2
x1 x2
x2
X1
x3
x4
41 xx
41 xx 本来は だが,x2とx3を経由するx1の 影響が互いに打ち消し合って が成立.
41 xx d−separation
関数モデル上の統計的因果推論という新しい原理が研究されている。
従来の統計的因果推論の問題点の克服に向けて
最初の関数モデル上の統計的因果推論手法の提案 (Shimizu et al., UAI05,JMLR06,UAI09)
• “Many observed data are considerably non Gaussian.’’ (Micceri, 1989; Hyvarinen et al. 2001)
• 非ガウス成分を考えることで、変数間の因果構造は 識別可能となる。
12121 : exbx
21212 : exbx
Model 1
Model 2
x1 x2
x1 x2
nnnn exbxbx
exbxbx
exbxbx
exbx
ex
3322
43431414
32321313
21212
11
互いに独立な
非ガウスの 非観測外乱
LiNGAMモデル
(Linear Non-Gaussian
Acyclic Model)
ガウス性 v.s. 非ガウス性
Gaussian Non-Gaussian
121 : exx
212 : exx
Model 1
Model 2
x1
x2 x2
x1 x1
x2 x2
x1
•構造方程式モデル(Structural Equation Model:SEM) •各観測変数 は連続確率変数. •変数間の因果関係は線形で有向非巡回グラフ(DAG)で表される. •各外乱 は互いに独立で非ガウス揺らぎを持つ. •行列Bは行と列の同時入れ替えによって下三角化される.
提案手法:線形非正規非巡回モデル Linear Non-Gaussian Acyclic Model (LiNGAM model)
(Shimizu et al. UAI05)
eBxx i
ikjk
jiji exbx )()(
or
ix
ie
nnnn exbxbx
exbxbx
exbxbx
exbx
ex
3322
43431414
32321313
21212
11
1x
2x
3x
4x
nx
1e
2e
3e
4e
ne
DAG (Directed
Acyclic Graph)
Structure
x3
e3
具体例 • 3変数モデル
• 変数の因果的順序
–
– x2 はx1から影響を受けるが, x3からは影響を受けない.
• 外乱
– 外乱x1は外乱e1に等しい.x1を外生変数という.外生変数は最も上流の変数である.
– e2とe3は付加外乱あるいは誤差 である.
B
323
212
11
3.1
5.1
exx
exx
ex
-1.3
3
2
1
3
2
1
3
2
1
03.10
005.1
000
e
e
e
x
x
x
x
x
x
3)3(,2)2(,1)1( kkk
x1
x2
1.5
e1
e2
提案手法(Shimizu et al.,UAI09) 変数間因果の判定(2変数の例)
i) が上流である.
t.independenNOTareand
t.independenareand
:
22
21
21212
ex
ex
exbx
)( 11 ex
t.independen areand 21 rx
1x
t.independenNOTareand
t.independenareand
:
11
12
12121
ex
ex
exbx
t.independenNOTareand 21 rx
x1とx2の回帰式 x1とx2の回帰式
1
1
122
1
1212
1
1
1222
)var(
),cov(
)var(
),cov(1
)var(
),cov(
ex
xxx
x
xxb
xx
xxxr
21
1
1222
)var(
),cov(ex
x
xxxr
ii) が上流でない.
提案手法 独立性を測る尺度
• 厳密にはあらゆる非線形関数f,gの非線形相関ゼロを確認せねばならないが、現実には無理。
• 以下の非線形相関により近似的に変数とその残差の独立性を検定評価
tanh,corr,corr),( 212121 grxgrgxrxC fg
0
)()(
)()(
),(
1
2
2
1
2
1
1
21
21
n
i
n
i
n
ifg
rgxf
rgxf
rxC
独立性判定:非線形相関係数
(あらゆる非線形
関数f,gについて)
モデルの前提がデータで成立していれば,非線形相関の近似誤差を除いて,
この方法は必ず正しい唯一の因果構造を同定することが証明されている.
DirectLiNGAM: 直接的因果推論法 • 基本原理:
1. 前掲の回帰式法より最上流の外生変数を探す.
– 例えば が分かる.
– 回帰により最上流のx1の成分を他の変数データから除く.
2. “外生”の回帰残差を探す.
– 例えば .
残差の因果順序と元の変数の因果順序は一致する.
3. 最終的に が導かれる.
21
321 , xxx
x3
x1
x2
e1
e2 e3
r3 r2
e2 e3
32 rr
321 xxx
32 xx , i.e.,
DirectLiNGAM:まとめ
• 知っていること(あるいは仮定)
– データ Xは によって生成されている.
• 知らないこと
– 変数間の結合係数: ,
– 因果的順序: k(i),
– 各外乱: .
• データ Xのみ観測されている.
• データXのみからBとk,eが導びかれる!
22
eBxx
ie
ijb
標本サイズv.s.非ゼロ要素数(誤差)
DirectLiNGAM
DirectLiNGAM
DirectLiNGAM
DirectLiNGAM
LiNGAM
LiNGAM LiNGA
M
LiNGA
M
n = 30, 50, 80, 200, 500, 1000, 2000
p=10 p=20
p=50 p=100
log n
log n
log n
log n
変数が100個程度のデータでも正確に因果構造を同定可能
脳波Magneto-encephalography data から導いた脳波源の影響関係
• 各手法により推定された因果構造:
(Original) LiNGAM DirectLiNGAM (proposed)
Exogenous Non-exogenous
関数モデル上の統計的因果推論の一般的原理について
DAG構造を有する一般的な関数モデル • 変数集合:X={x1,…,xp}
• Xiの親変数集合:PAi⊆{x1,…,xi} ⊆X
• Xiの外乱: ei
• 関数:
DDf iPA
i ||
:
),...,1(),(),(
),,(
piePAePePAPPA
ePAfx
iiiiii
iiii
fiは観測データの母集団分布P(X)を実現可能で,かつ 我々が観測データの変数間に成立し得ると想定する, 一定の関数クラス に属するものとする.
},...,1any for :|{ piDDffF i
関数モデル上の因果関係(1) • X中のxiの子孫以外の変数集合:NDi
• PAi⊆Si⊆NDiである変数集合Siにおいて,ある変数xj∈Pai
以外の変数集合Si\{xj}による条件付き確率分布:P(xj|Si\{xj})
• 各fi∈Fについてxj以外の引数を条件づけた2変数関数関係:xi=fi(xj,ei|Si\{xj}}
定義1(関数モデル上の因果関係識別性)[Peters 2011]
かつ
}{\|}),{\|,(:
}{\|}),{\|,(
jijijijijjj
jiijjiijii
xSexxSexgxFg
xSexxSexfx
}{\|}{\|}),{\|,( jijijiijjiijii xSxxxSexxSexfx
jiij xxxx かつ
関数モデル上の因果関係(2)
• 関数モデル上の因果関係
ij xx
}){\|,(),,...,,...,( 11 jiijiiiijii xSexfxexxxfx
条件付け(固定) 条件付け(固定)
ij ex 独立
の中には存在しない.同じ関数クラス
が向きの関数の立場を入れ替えた逆と
F
gxx jji
は独立ではない.と ji xx
ji xx
関数モデル上の因果関係(3) • 多変数の関数モデルでも,2変数の因果関係識別問題に帰着される.
定理1(関数モデルの因果構造の一意性)[Peters 2011]
観測データの母集団分布P(X)がDAG因果構造を有する関数モデルによって生成され,かつその各fiが定義1の条件付き2変数関数関係の識別性を有する時,P(X)はその因果構造以外から生成されることはない.
2変数の因果関係識別問題に帰着し, DAG因果構造を一意に同定可能.
識別性を有する2変数関数の色々
識別性を有する2変数関数(1) • 多変数の場合も2変数の因果関係識別問題に帰着されるので,2変数関数関係に着目する.
• 線形関係(LiNGAM) [Shimizu 2005]
• 非線形関係かつ加法的外乱 [Hoyer 2008]
識別性を有する.が非ガウス分布する
は定数.
以外を条件付ける.と
)(
,
,1
1
i
ijiji
ijji
i
j
jiji
ep
cecxbx
xPAxexbx
を有する.持たない限り,識別性
と極めて特殊な関係をが iij
ijii
fepxp
exfx
)(),(
)(
識別性を有する2変数関数(2) • Post-Nonlinear関係 [Zhang & Hyvarinen 2009]
))(( 1,2, ijiii exffx
必要十分条件は非常に複雑. 実用的観点から以下に絞った識別性の十分条件を提示. ・ fi,1とfi,2は3回微分可能. ・ P(xj)とP(ei)は3回微分可能であり,ei ∈(-∞,+∞)でP(ei)>0で, 高々有限個の点を除いてlog P(ei)の2回微分はゼロ. この両方の条件が成り立つ時, 以下の何れかが成り立てばfiは識別性を持つ. 1. P(ei)がガウス分布,P(ei)=exp{c1exp(c2ei)+c3ei+c4}, P(ei)=c1{c2exp(c3ei)+c4exp(c5ei))}
c6の何れでもない. 2. fi,1の逆写像が存在しない.
識別性を有する2変数関数(3) • ブール関数関係 [Inazumi 2011]
• 整数値関数関係 [Peters 2011]
.,は }1,0{,,, ,
,
jiiji
ijjii
bexxEXOR
exbx
0<P(xj), P(ei)<1かつP(xj),P(ei) ≠0.5が識別性の必要十分条件.
IIfIexx
exfx
iiji
ijii
:,,,
)(
識別性の必要十分条件は,xi,xjが有界な場合とそうではない場合で異なる.何れも実用的には殆ど場合に識別性を持つ.
従来法との関係
従来の統計的因果推論の識別性
• 以下の2条件が識別性の必要条件
観測データの母集団分布P(X)とそのDAG因果構造G,互いに交わらないA,B,C⊂Xについて,
• マルコフ性 – A,B d-separated by C ⇒ A ⊥ B|C.
• 忠実性(Faithfulness) – A,B d-separated by C ⇐ A ⊥ B|C.
上記は必要条件であり,マルコフ同値な構造は識別できない.
マルコフ性に関する比較 • 従来法
– 観測データにおいて独立なAとBが,Cで条件付けた時に独立でない場合,マルコフ性よりCがcollider またはその下流変数を含むとして,A →C←Bを導出.
• 関数モデルに基づく方法 – 事前知識の識別性を有する関数クラスFと観測データから,2つの因果構造を仮定
xj→xi←ei ( xi=fi(xj,ei|Si\{xj}) )
xi→xj←ej ( xj=fj(xi,ej|Sj\{xi}) )
– Fに関する知識を利用して隠れ変数ei,ejを推定し,
xj⊥ei|Si\{xj} or xi⊥ej|Sj\{xi}
の何れが成り立つかを調べ,マルコフ性の条件が成立する
方を選択する.
どちらもマルコフ性の仮定を同様に使用している.
忠実性(Faithfulness)に関する比較 • 従来法
– 忠実性: A,B d-separated by C ⇐ A ⊥ B|Cを利用.
• 関数モデルに基づく方法[Peters 2011]
– 識別性の定義に含まれる以下を利用.
– は所与の前提なので書き換え可能.
DAG因果構造からそれ以上の辺を除くと母集団分布P(X)を生成できなくなるというCausal minimality条件.
}{\|}{\|}),{\|,( jijijiijjiijii xSxxxSexxSexfx
}{\|}){\|,( jijijiijii xSxxxSexfx
}{\| jiij xSex
Faithfulnessが成立するならCausal minimalityも成立. つまり,Causal minimalityのカバーする範囲の方が広い. 従って,関数モデル上の統計的因果推論は,従来法より 適用範囲が広い.
関数モデル上の統計的因果推論の課題
関数クラスFが満たすべき条件
1. 観測データの母集団分布P(X)を実現可能,かつ
2. 我々が観測データの変数間に成立し得ると想定するもの.
任意の分布P(X)について生成可能な関数xi=fi(PAi,ei) (ただし, PAi⊥ei)が必ず存在する [Darmios 1951]ので,条件1は必ず満たされる.
条件2について更に掘り下げた研究が必要である.
2値データへの適用
BExSAM [Inazumi et al., 2011, UAI]
40
x1
x2
x3 x4
e1
e2
e3 e4 xi: 観測変数 ei : 外乱ノイズ fi: xi の親変数からなる任意のブール関数
終点内生変数
0 < p(ei=1) < 1 かつ p(ei=1) ≠ 0.5
この仮定により 一意に同定できる.
推定アルゴリズムの流れ [Inazumi et al., 2011, UAI]
• すべての DAG 構造が求まるまで 以下を繰り返す. 1. 順序推定ステップ: 終点内生変数 xsink を推定する(後述).
2. 親変数推定ステップ: xsink の親変数の集合を推定する(後述) .
3. 変数削減ステップ: xsink をモデルから取り除く.
41
x1
x2
x3 x4
e1
e2
e3 e4
終点内生変数 xsink x1
x2
x3 x4
e1
e2
e3 e4
1. 順序推定ステップ 2. 親変数推定ステップ
×
順序推定ステップ [Inazumi et al., 2011, UAI]
• 例: 3変数モデル
• 行を終点内生変数 x3,列を残りの変数 x1, x2 とした度数分布表
42
x3 \ (x1, x2) (1,1) (1,0) (0,1) (0,0)
1 20 15 40 10
0 10 30 20 20
2:1 1:2 2:1 1:2
すべての列について, 比率が 1:2 または 2:1 になる.
p(e3=1) = 1/3
定理 2. x3 が終点内生変数である ⇔ すべての (x1, x2) の値の組み合わせについて, p(x3 = 1 | x1, x2) = q または 1–q となる共通の定数 q が存在する.
親変数推定ステップ (1/2) [Inazumi et al., 2011, UAI]
• 例: 3変数モデル
• 行を終点内生変数 x3,列を親でない変数 x1 とした度数分布表
43
x3 \ x1 1 0
1 20 40
0 10 20
p(e3=1) = 1/3
x3 \ x1 1 0
1 15 10
0 30 20
x2 = 1 のとき x2 = 0 のとき
独立 独立
親変数推定ステップ (2/2) [Inazumi et al., 2011, UAI]
• 例: 3変数モデル
• 行を終点内生変数 x3,列を親である変数 x2 とした度数分布表
44
x3 \ x2 1 0
1 20 15
0 10 30
p(e3=1) = 1/3
x3 \ x2 1 0
1 40 10
0 20 20
x1 = 1 のとき x1 = 0 のとき
独立でない 独立でない
命題 1. x3 を終点内生変数とする. x1 が x3 の親でない ⇔ すべての x2 の値について, p(x3 = 1 | x1 = 1, x2) = p(x3 = 1 | x1 = 0, x2) が成り立つ.
G検定による独立性の検定 [Sokal and Rohlf, 1995]
• k 値を取るカテゴリ変数 X, l 値を取るカテゴリ変数 Y に 関する k × l 分割表
• 帰無仮説「X, Y が独立」に関する対数尤度比 G
• 対数尤度比 G が n → ∞ のとき漸近的に 自由度 ν = (k–1)(l–1) のカイ自乗分布 χν
2 に 従うことを利用して検定を行う.
45
X \ Y 1 … l 計
1 O11 … O1l O1*
… … … … …
k Ok1 … Okl Ok*
計 O*1 … O*l n
観測度数 Oij
帰無仮説が成り立つときの期待度数
Gスコアによる順序推定 • 行を終点内生変数 x3, 列を残りの変数 x1, x2 とした度数分布表
46
(x1, x2) (1,1) (1,0) (0,1) (0,0)
度数小 10 15 20 20
度数大 20 30 40 40
列に関して,度数の小さい順にソートする.
この分割表は独立となる. → この分割表に対する G 統計量 を計算し,G スコア SG(x3) とする. x3 が終点内生変数のとき SG(x3) は最小値ゼロを取る.
x3 \ (x1, x2) (1,1) (1,0) (0,1) (0,0)
1 20 15 40 10
0 10 30 20 20
比率が 1:2 の場合と 2:1 の場合があるので, この分割表自体は独立ではない.
人工データによる評価 • 6変数の場合について,BExSAM の構造をランダムに生成し,さらに各 p(ei=1) を {0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9} からランダムに選択し,データを生成した.
• エラー率 ERs は次で定義される:
ERs =
すべての取り得る辺の数
同定を誤った辺の数 有向辺 辺なし
有向辺 a b
辺なし c d
= a+b+c+d
b+c
0
0.2
0.4
0.6
100 1000 10000
サンプルサイズ n
エラー率 ERs の比較
Gスコア,G検定 エントロピースコア,Z検定
従来手法3つとの比較 • Y構造 [Mani 2006] を持つBExSAM について20回の試行.
x1
x2
x3 x4
有向辺 辺なし 無向辺
有向辺 42 4 14
辺なし 0 166 14
CPC アルゴリズム [Ramsey 2006]
有向辺 辺なし 無向辺
有向辺 41 13 6
辺なし 9 165 6
PC アルゴリズム [Spirtes 2000]
有向辺 辺なし 無向辺
有向辺 38 6 16
辺なし 0 164 16
GES アルゴリズム [Chickering 2002]
有向辺 辺なし 無向辺
有向辺 57 3 0
辺なし 2 178 0
提案手法
実データへの適用 • ウィスコンシン州の高校生の大学進学意思に関するデータ
[Sewell and Shah, 1968], [Spirtes et al., 2000]
• 比較的高い社会的ステータスを持つ男子高校生 3841 人を選択.
• 推定された生成過程を示す.これは,[Spirtes et al., 2000] で述べられている仮説と一致する
知能指数の 高低
親の働き掛けの高低
大学進学意思の有無
むすび
• 関数モデル上の統計的因果推論に関する最近の代表的研究について概観・議論
–従来の因果推論・構造学習の原理との関係を簡単に論じた.
• 更に例として,
–関数モデルが連続線形であらわされる場合の清水等我々の研究について紹介
–関数モデルが2値変数間ブール関数であらわされる場合の稲積等我々の研究について紹介