生物統計特論3資料 2006 ギブス mcmc isseing333
TRANSCRIPT
1
Sampling-Based Approaches to Calculating Marginal Densities Alan E. Gelfand, Afrian F. M. Smith
Journal of the American Statistical Association, 85;410:398-409, 1990.
確率論的な substitution、Gibbs sampler、importance-resampling algorithm は、周辺確率分
布の数値的推定の計算アプローチに基づく 3 つの代替サンプリング(または Monte Carlo)と
してみなすことができる。3 つのアプローチは、応用上しばしばさまざまな同時確率分布の
構造に関連して比較される。とくに、構造モデルのひとつである Bayesian の事後分布を計
算するアプローチの妥当性について議論する。
1. Introduction
確率変数 U1、U2、…Uk の集積に関して、次の(a)もしくは(b)の状況を仮定する。
(a) 条件分布 Ui|Uj(i=1,・・・, k)が得られる。
(b) 同時密度関数が既知でおそらく効率的な基準化定数であり、少なくてもひとつの
(c) Ui|Uj が得られる。“available”は、適切に条件付けられた変数の特定の値を与えた
もとで、標本 Ui が簡単に効率的に発生するということを意味する。
<この論文の論点>
確率論的・数値的分析的モデルなしで、非解析的に得られるいくつかの周辺密度、もしく
は、得られる条件付き分布からシミュレーションされた標本による簡単な Ui のすべての数
値的推測を得るために、(a)または(b)によって与えられる構造上の情報を発展させる。
(方法に基づいたサンプリングの魅力は概念的に容易で、数値的な解析の専門家がいなく
ても、入手・計算が可能な情報を持っている利用者にとっては実施が簡易である。利用者
に必要なことは、関連する条件付き分布の確率構造と、適切な確率変数を効率的に発生さ
せるための手技に関する知識である。)
<論文内容の構成>
2 節
① Taner & Wong:data-augmentation algorithm (→2.1)
…文献に基づいて、サンプリングアルゴリズムによって周辺密度を計算するための 3 つ
の代替アプローチを議論する。
② Geman & Geman:Gibbs sampler algorithm (→2.3)
③ Rubin:importance-sampling algorithm (→2.1、2.2)
・ Gibbs Sampler は広く取り上げられているが、慣習的な問題への一般化可能性(事後分布
2
への適応など)は見過ごされている。
・ Gibbs sampler と substitution、data-augmentation algorithm の密接な関係を述べる。この論
文では後者(data-augmentation algorithm)を一般化し、(a)に加えて異なった条件分布が
得られることを仮定すると、data-augmentation algorithm は少なくても Gibbs sampler と同
様に効率的である。また (a)に加えて明確な条件付き分布が得られたもとでは、
data-augmentation algorithm は、より本質的に効率的であることを示す。
・ Gibbs sampler と data-augmentation algorithm の関係の結論は、German & German によって
確立された収束結果は、一般化された substitution algorithm に応用できる、ということ
である。Tanner & Wong によって確立されたより強い収束結果は、特定の周辺分布の集
合が得られることが必要である。
・ substitution と Gibbs sampler algorithm の両方とも Monte Carlo 積分の反復で、(a)によって
与えられた構造上の情報が得られるときに適用される。構造上の情報が(b)によって記述
される場合、Rubin による importance-sampling algorithm は、周辺密度を計算するための
Monte Carlo の非反復積分アプローチを与える。
3 節
:容易に導入される解を要求する 3 つのアプローチのひとつ以上が適用される場面でし
ばしば発生する様々なモデル構造を提示する。とくに、不完全データの問題における
Bayesianの事後分布、conjugate hierarchical model、normal data modelの計算について考える。
4 節
:2 標本におけるいくつかの結果を簡単に要約する。
5 節
:discussion
2. Sampling Approaches ・後でする仮定:実数であり標本空間で正である同時密度関数を持つ確率変数.完全条件
付分布によって同時分布を特定できる. ・全体を通しての仮定:全ての周辺分布と条件付分布をルベーグ測度によって定義する.「分
布」と「密度」は表現上交換可能.
3
・密度は同時分布,条件付分布,周辺分布によって階層的に表現する.
・[ ]X は分布を表し,X は実現値(サンプリング値)を表す.
・分布を掛ける際は「*」を用いる.簡便のため積分は次のように表現する. ・この例の場合は Z と W について積分している. ・h で表現することもある(この場合,Z で条件付けられたある分布に対して W で周辺を
とることを表している). 補足:X や Y は実際に適応する際には失測値や推定したいパラメータを表す. 2.1 Substitution or Data-Augmentation Algorithm ・代替法はある積分の解を求める標準的な方法(Rall). ・統計学における有用性は Tanner and Wong によって示された(彼らはデータ拡大法と呼
んだ). ・以下に理論の説明. ・こうすることで X を段階的に求めることができる.
特徴:TW1. 真の周辺分布は unique に求まる TW2. 初期値にかかわらず(3)式で表現される分布は真の分布に収束する TW3. 速さ(?)
・変数が k 個の時も同様. ・例:3 変数の場合.
(5),(6)式を(4)式に代入すると,2 変数の場合と同じように X を用いて明示的に表現
できる.
[ ] [ ]
[ ]
[ ]
{ } [ ]
( ) [ ]
,
, ,
, , ,
, , , ,
,
, ,
, , ,
, , ,
,
Y Z
Y Z Z X
Y Z Z X X Y
X X Y Y Z Z
X
X X Z Y Y
X Z Y Y X Z Z
X Z Y Y X Z Z Y X X
X Z Y Y X Z Z Y X X
g X X X
′ ′
′ ′ ′′ ′
′′ ′ ′ ′
′′
= ∗
′ ′ ′= ∗ ∗
′ ′ ′ ′ ′′ ′′= ∗ ∗ ∗
′ ′ ′ ′ ′′ ′′= ∗ ∗ ∗
′′ ′′= ∗
∫∫ ∫∫ ∫ ∫
∫ ∫∫
4
i 回 iteration する(上の添え字 i に対応) 1 cycle
・ゆるい仮定をおけば ( ), 1, 2,...,r r s sU U s k≠ = で表せる条件付分布によって同時分布を
unique に決定できる(つまり代替サンプリングを正当化できる). 2.2 Substitution Sampling 代替サンプリング
・X と Y の条件付分布がわかっている場合に適応可能(1 節の a の状況). ・代替サンプリングのサンプリング手順は以下のようになっている.
[ ]0X ~(0)1X
(1)1X Y ~
(1)1X ………… ~
( 1)1
iX − ( )
1iX Y ~
( )1
iX
…………
(0)1Y X ~
(1)1Y
(1)1Y X ~
(2)1Y …………
( 1)1
iY X − ~( )
1iY
・それぞれのペア同士(replicate)は独立であるが,あるペア内のサンプル同士(iteration)
は独立ではない. ・m ペアを replicate し,それらの条件付分布の平均をとることで分布の推定値を得る
(Monte Carlo 法).
このペアを m 個作る(m 回 replicate する,下の添え字 j に対応)
5
1/m で Y を発生させる分布を選ぶ
(Tanner and Wong は混合分布から Y を発生させている)
1 cycle i 回 iteration する(上の添え字が i になるまで)
m 回 replicate
データ拡大法(Tannea and Wong)
(0)1X
(0)1Y X
(0)jY X ~
(1)1Y
(1)1X Y ~
(1)1X …
(0)2X
(0)2Y X
(0)jY X ~
(1)2Y
(1)2X Y ~
(1)2X …
[ ]0X : : :
: : :
(0)mX
(0)mY X
(0)jY X ~
(1)mY
(1)mX Y ~
(1)mX …
・m は任意に決めることができるので計算を節約できる可能性がある(補足:初めは小さ
い m にしておいて,サンプリングが安定してきたら m を大きくする). ・代替法とデータ拡大法は iteration と replicate の順番が逆になっているが,本質的には
同じサンプリング方法. 補足:・Rubin はデータ拡大法を multiple imputation と呼んだ.この例の場合に MI を対
応させると,X が失測値であり Y がパラメータである.Y の分布を推定するステ
ップを“事後ステップ”と呼び,その他の X や Y をサンプルするステップを
“imputation ステップ”と呼ぶ. ・Wei and Tanner はデータ拡大法を,EM アルゴリズムの E ステップにおいて Q
function を求める際に適用することを提案した(MCEM). 以下,両方の方法に共通な説明.
・ ˆi
X が[ ]X に収束する簡単な説明.
・3 変数以上の場合も同様. ・完全同時分布は必要ないが,条件付分布を求める際に完全条件付分布や縮小条件付分布
が必要.
6
例:3 変数の場合,X に関する式を書き下すと次のようになる.
[ ] [ ][ ] [ ]
, , ,
, , ,
X X Z Y Y X Z Z Y X X
X X Z Y Z Y Y X Z X Z Z Y X Y X X
′ ′ ′ ′ ′′ ′′= ∗ ∗ ∗
′ ′ ′ ′ ′ ′ ′′ ′ ′′ ′′= ∗ ∗ ∗ ∗ ∗ ∗
∫∫
上式:400 ページの真中あたりの説明で表現される式. 下式:(8)式の上の方の説明で表現される式(実際の計算はこの式に基づく). →つまり 1cycle で 6 サンプル必要となることがわかる. ・変数が k 個あるときは 1 回の cycle で k(k-1)個のサンプルが必要(3 変数の場合は 6 サン
プル). ・iteration を i 回行い,replicate を m 回行うためには mik(k-1)個のサンプルが必要. ・分布の推定を行う際には,2 変数の場合と同じように条件付分布の平均をとる. 2.3 Gibbs Sampling ・変数が 3 個の場合,代替法では 6 個の条件付分布が必要であった. ・しかし完全条件付分布さえあれば,unique に同時分布や周辺分布を決定できるのでこれ
を利用してサンプリングを行うことができる(Geman and Geman).→Gibbs samplerと呼ぶ
・Hasting はこれより以前にこれと同等のことを述べていた. ・ギブスサンプリングはもともと画像修復やニューラルネットワーク,専門システムなど
の複雑な確率モデルのために考案された方法. ・これらの分野では同時分布を求めることが困難である. ・しかし通常は,個々の完全条件付分布は変数のある subset にしか依存しないと仮定する
ことが多い((11)式の形). ・この仮定のとき,どのような条件付分布であれば同時分布を unique に決定できるか? ・Geman and Geman がこの疑問に対して答えている. ・今回の論文の例は全て満たしている. ・我々の分野では k はそんなに多くないし,同時分布を特定する過程で完全条件付分布を
計算することはできるだろう.
7
i 回 iteration したものを平均すると,期待値に概収束する.
(エルゴード性)
m 回 replicate し, (9)式の形で分布を 推定することも できる.
ギブスサンプリング
(0)1U
(1)1U ~ (0) (0)
1 2 ,..., kU U U | ( )1
iU
(0)2U
(1)2U ~ (1) (0) (0)
2 1 3, ,..., kU U U U | ( )2
iU
: : :
(0)kU
(1)kU ~ (1) (1)
1 1,...,k kU U U − | ( )ikU
……………
[ ]. .
( ) ( )1 1
1
1lim ( ,..., ) ( ,..., )i a s
l lk ki l
T U U E T U Ui→∞
=
→∑
特徴:GG1. 変数ベクトルは同時分布に分布収束し,各変数は各変数の分布に分布収束
する(変数が現れる順序が natural order でなくても,それぞれの変数が無限
回起これば良い. Infinitely often,io). GG2. natural order であれば変数ベクトルは真の同時分布に収束する(natural
order でない場合は rate が変わるだけ). GG3. i 回 iteration したものを平均すると期待値に概収束する.(エルゴード性) ・k 変数,i iteration,m replicate であれば mik 個のサンプルが必要. 補足:Meng and Schilling は EM アルゴリズムにおいてギブスサンプリングを適用するこ
とを提案した. 2.4 Relationship Between Gibbs Sampling and Substitution Sampling ・2 変数の場合:ギブスサンプリングと代替サンプリングは等しい. ・k 変数の場合:ギブスサンプリングは k 個の完全条件付分布が必要(同時分布を特定する
ための最小の数). 代替サンプリングは k(k-1)個の条件付分布が必要.
初期値を任意に
決定する
…
8
・k が大きいとギブスサンプリングの収束は遅いことが知られている. ・サンプルの個数で比較すると,代替サンプリングで i 回の iteration ができるとすればギ
ブスサンプリングでは i(k-1)回の iteration ができる. ・しかし代替サンプリングでは常に正確な分布からサンプルを得ているので収束は速い. ・完全条件付分布しか得られなかった場合,代替サンプリングはどのように適用できるか. ・結論から言うと,この場合は io visiting の順序が異なっている以外はギブスサンプリン
グと同等である. ・具体的には sub-loop をまわすことで縮小条件付分布を推定することで,代替サンプリン
グを適用できる(3 変数の場合(13)式を利用して推定できる). →k 変数の場合にも拡張できる. ・今までは,条件付分布が全てわかっていないと代替サンプリングは使われなかった. ・しかし sub-loop を(10)式に組み込むことで代替サンプリングを適用できる. ・完全条件付分布のみは,各 cycle で 1 度は使われているので iteration を行うと io となり,
そのためこの分布だけは真の分布とみなせる(actually sampled from). ・このような代替サンプリングは io visiting order 以外はギブスサンプリングと等しく,そ
のため GG1~GG3 は満たされる(TW が満たされるのは全ての条件付分布が求まって
いる場合のみである). ・しかしこのような複雑な順序でサンプリングする利点はなく,通常のギブスサンプリン
グで充分である. ・k 変数の場合でも以上の議論と同様の議論ができる. ・k 個の完全条件付分布しかわからない場合は,ギブスサンプリングと代替サンプリングは
等しい. ・縮小条件付分布がいくつか分かっている場合は代替サンプリングの方が速く収束する. ・このようにいくつかだけ分かっている場合に代替サンプリングを適用する際は,縮小条
件付分布が分かっていればそこからサンプリングし,そうでなければ完全条件付分布
からサンプリングすると良いかもしれない. 例:3 変数の場合にギブスサンプリングを代替法の順序で行うと,通常の順序で行った場合
の 2 倍のサンプルが必要となる.縮小条件付分布がわかっていれば対応する部分はそ
れを用いてサンプリングする. ・3 節では縮小条件付分布がわかっている場合と分かっていない場合を考える. ・4 節ではシミュレーションによって,縮小条件付分布がわかっている場合の収束の速さは
重要ではないことを示す.
9
3. Examples ・主にベイズ流の推測によって周辺事後分布を計算する際にこれまで紹介した手法が使わ
れる. ・近年そのような計算をする際に近似計算を行う方法が発展したが,それらは洗練された
専門家やソフトウェアが必要となる. ・しかしサンプリング法ではコンピュータ計算が非効率になる代わりに,そのようなもの
は必要ではなくなる. ・様々な分野に適応できるように,これから 6 つの例を示す. 3.1 A Class of Multinomial Models ・連鎖解析の例.Tanner and Wong の方法を拡張した. ・測定値は個人の細胞ではなく,凝集した細胞なので多項分布からのサンプリングを考え
る. ・Tanner のモデルはパラメータが 1 つであったが,今回は k パラメータの拡張への見通し
をつけるために 2 つのパラメータで考える. ・Y に多項分布(5 項分布)を設定する(a,b,c は定数でθとηがパラメータ.a,b,c の関係
式は恒等式をパラメータについて解くと得られる). ・パラメータについて 3 つの条件式が得られるので,パラメータの事前分布に 3 変数のデ
ィクリレ分布を想定する. ・計算によって周辺分布を求めるのはちょっと複雑になってしまう. ・パラメータはθ,η,Z の 3 つ. ・ギブスサンプリングは 3 つの完全条件付分布が必要であり,これは入手可能. ・今回の場合は縮小条件付分布も入手可能なので,収束の速さを調べることができる. ・importance sampling では? 3.2 Hierarchical Methods Under Conjugacy ・ベイズ流の k 層の階層モデルを考える(?). ・通常θk 以外は漠然事前分布である.
10
・(17)式は事前分布を更新したもの(?). ・縮小条件付分布が無ければ,周辺事後分布を推定するのにギブスサンプリングを行う. ・分かりやすくするため k=3 の場合を考えると,条件付分布のなかに計算可能なものとそ
うでないものがあることがわかる. ・交換可能な(?)ポアソンモデルを考える. ・ポアソン分布の事前分布にガンマ分布を,さらにその事前分布に逆ガンマ分布を想定す
る. ・するとパラメータに関する完全条件付分布を計算できるが(18,19),縮小条件付分布は
計算できない. ・ギブスサンプリングでは,λをガンマ分布から,βを逆ガンマ分布から得ることができ,
さらにその分布を推定することもできる. ・Rubin は? 3.3 Multivariate Normal Sampling ・平均と分散共分散行列に事前分布を想定した多変量正規分布からの標本では,完全条件
付分布と,縮小条件付分布のうちいくつかしか計算できないことが多い. ・中略 ・縮小条件付分布がわかるので,代替サンプリングを用いることで収束が速くなる. ・Rubin の方法は単純になる. 4. Numerical Illustrations 4.1 A Multinomial Model ・多項分布の例に 3 つの方法を適用した. ・事前分布がディクリレ分布である多項分布から Y=(14,1,1,1,5)が得られたとする. ・ここで興味のある事はパラメータの周辺事後分布である. ・ギブスサンプリングと代替サンプリングを比較する. ・まず Smith の方法によって正確な分布のパーセントタイル点を計算した. ・θとηは一様分布から発生し,足して 1 を超えないようにする. ・m=10 とし,各サンプリングで発生する変数の数が同じになるようにする.
11
・各サンプリング法で推定した分布の,真のパーセンタイルまでの累積確率と標準誤差を
計算し,どちらのサンプリング方法が真の値に近いかを%で表す. ・表 1 に最初の 4cycle の結果を示す. ・特にηに関して,代替サンプリングの方が速く真の分布に近づいていることがわかる. ・3,4 週目では両方同じくらい良いパフォーマンスを示している. ・m=10 でありパラメータは無情報であるのにかかわらず,4 週目で既に推定された周辺分
布の累積確率は真の分布のものとほとんど等しい. ・4.2 の結果も総合すると,Tanner and Wong が報告しているよりもずっと少ない変数の
数で充分に収束するであろう. ・Rubin の方法の結果を表 2 に示す. ・m=40,200,2500 回繰り返しにかかわらず,ギブスや代替法に比べてかなり劣っている. ・一般的に,Rubin の方法は初期分布の選び方に強く依存し,(?)