chap03

. . . . . .

Bayes ゼミ　第 8 回

.

......Bayesゼミ　第 8回

南賢太郎

システム ()4 年 ()

May 29, 2013

. . . . . .


アジェンダ

本日の範囲

3.5 Bayesian Analysis with Subjective Prior

3.6 Robustness and Sensitivity

3.7 Classes and Priors

3.8 Posteriors Robustness　 (← Global Measureまで)

. . . . . .


§3.5 Bayesian Analysis with Subjective Prior

復習 & 記号の定義

X : 標本空間, Θ: パラメータ空間

X ∼ f(x|θ), θ は prior π(θ) をもつ

(X, θ)の同時密度関数:

h(x, θ) = f(x|θ)π(θ)

X の周辺密度:

mπ(x) = m(x|π) =∫Θf(x|θ)dπ(θ)

π　が文脈から明らかなときは m(x) とも書く

. . . . . .


§3.5 Bayesian Analysis with Subjective Prior

xが与えられたときの θの事後確率密度:

π(θ|x) = h(x, θ)

mπ(x)=

f(x|θ)π(θ)mπ(x)

事後平均: Eπ(θ|x) 事後分散: V π(θ|x)

. . . . . .


§3.6 Robustness and Sensitivity

ロバスト性とは

.ロバスト性..

......

(直感的には) 推定問題や決定問題の仮定の「不確かさ」が，結果に対してあまり影響を与えないこと

ここでいう「仮定」とは…

推定問題 → モデル，priorの選択

決定問題 → 上記 + 損失関数 (or utility) の選択

感度解析 (sensitivity analysis): 仮定の変化に対する「感度」を評価する

. . . . . .



Example 3.1

X ∼ Poisson(θ)を観測する

θには「medianが 2で upper quartileが 4である」という事前情報

条件を満たす priorの候補として π1(指数分布)，π2(対数正規分布)，π3(対数 Cauchy分布) を考える事後平均Eπi(θ|x)を計算すると表 3.1に→ xが大きいところではけっこう差が出る

. . . . . .



この例からわかることは…

共役事前分布 (π1)による推定と，スソの重い分布 (π3)による推定は大きく異なる

与えられた情報に対して妥当と思われる priorのクラスを考えても，その中での選び方によって結果が大きく変わること

がある

→ priorに関するロバスト性を考えることはやはり必要

. . . . . .


§3.7 Class of Priors

priorのクラスを選ぶ

priorのクラス Γの選び方としては，次のような性質をもつものが望ましい：

...1 「合理的な prior」をなるべく多く含む

...2 「非合理的な prior」をなるべく含まない

...3 抽出するのが困難な (priorに関する)情報を要求しない

...4 ロバスト性の尺度 (measure)を計算しやすい

具体的には…

conjugate class, neighbourhood class, density ratio class, ...

. . . . . .



3.7.1 Conjugate Class

Conjugate Class

共役事前分布のクラス

例： X ∼ N(θ, σ2), 分散 σ2既知

共役事前分布は θ ∼ N(µ, τ2)そこで次のような集合を考える：

ΓC = {N(µ, τ2) : µ1 ≤ µ ≤ µ2, τ21 ≤ τ2 ≤ τ22 }

. . . . . .



3.7.1 Conjugate Class

Conjugate classのメリット

事後的な量が求めやすい (閉じた解がある)

最適化が容易

デメリット

クラスが”小さすぎる”

priorの密度関数が尤度関数と同じ形 → priorのモーメントが結果に大きく影響

注：共役事前分布の混合はロバスト性を持つことが知られている

. . . . . .



3.7.2 Neighborhood Class

Neighborhood Class

ひとつの priorπ0が与えられているときにその「近傍」のクラス

ΓN = {π : π0の近傍 }

例： ϵ-contamination class

Γϵ = {π : π = (1− ϵ)π0 + ϵq, q ∈ Q}

クラスの「ふくらませ方」Qを適当にとると，Γϵはロバスト性を

もつ (後述: Chapter3.8.2)

. . . . . .



3.7.3 Density Ratio Class

Density Ratio Class

U,Lを非負の値をとる関数として

ΓDR = {π : L(θ) ≤ απ(θ) ≤ U(θ), ∃α > 0}

=

{π :

L(θ)

U(θ′)≤ π(θ)

π(θ′)≤ U(θ)

L(θ′), ∀θ, θ′

}と書かれるクラス．　 (Chapter3.8.1)

. . . . . .


§3.8 Posterior Robustness: Measures and Techniques

ロバスト性の尺度とは

何らかの尺度 (measure)を使ってロバスト性を定量評価したいここでは 2つの意味での尺度を扱う：

Global measure = 事後的な量の取りうる値の範囲

Local measure　= priorの摂動に対する事後的な量の変化量(微分みたいなもの)

. . . . . .



3.8.1 Global Measure of Sensitybity

Global Measure

.Global Measure..

......

priorがあるクラスの中の値をとるとき，興味のある事後的な量が取りうる値の範囲

例：

X1, . . . , Xn ∼ N(θ, σ2) i.i.d, σ2は既知

θの推定値として事後平均E(θ|x̄)に興味があるとするpriorのクラスとして Γ = {N(0, τ2) : τ2 > 0}をとる→ E(θ|x̄) = τ2

τ2+σ2 x̄より

E(θ|x̄) ∈ (0, x̄) or (x̄, 0)

. . . . . .




.ところで........「興味がある posterior quantity」って何?

→ Berger(1990)による分類(1) priorの線形汎関数例：周辺尤度m(π) =

∫Θ l(θ)π(dθ)

(2) priorの線形汎関数の比例：事後平均 Eπ(θ) = 1

m(π)

∫Θ θl(θ)π(dθ), 事後確率

(3)priorの非線形汎関数の比例：事後分散 V π(θ) = 1

m(π)

∫Θ(θ − µ(θ))2l(θ)π(dθ)

. . . . . .




線形汎関数のGlobal Measure

興味のある量が priorの線形汎関数である場合，考えているクラスの「端点」での値を考えればよい

例：

X ∼ N(θ, σ2), σ2既知

ΓSU = {θ0に最頻値をもつ単峰かつ対象な分布 }このとき ΓSU に属する priorは θ0について対象な一様分布の混合で表現できる

→ ΓSU の extreme pointは U(θ0 − r, θ0 + r)という形の分布よってこの端点において infや supを計算すれば十分！

infπ∈ΓSU

m(π) = infr>0

1

2r

∫ θ0+r

θ0−r

1

σϕ

(x− θ

σ

)dθ

= infr>0

1

2r

{Φ

(θ0 + r − x

σ

)− Φ

(θ0 − r − x

σ

)}

. . . . . .




線形汎関数の比のGlobal Measure

線形汎関数の「比」について考えるときは次の補題が役立つ.Lemma (Berger(1989))..

......

CT = {νt : t ∋ T} , T ⊂ RdをR上確率測度の集合，Cを CT の

凸包とする．また，h1, h2をR上で定義された実数値関数で次をみたすものとする：

(a)∫|h1(x)|dF (x) < ∞ for all F ∈ C

(b) ある定数K が存在してK + h2(x) > 0 for all xこのとき任意の kに対して次が成り立つ．

supF∈C

k +∫h1(x)dF (x)

K +∫h2(x)dF (x)

= supt∈T

k +∫h1(x)νt(dx)

K +∫h2(x)νt(dx)

infF∈C

k +∫h1(x)dF (x)

K +∫h2(x)dF (x)

= inft∈T

k +∫h1(x)νt(dx)

K +∫h2(x)νt(dx)

. . . . . .




ΓDRの考察

ΓDR := {π : L(θ) ≤ απ(θ) ≤ U(θ), ∃α > 0}π ∈ ΓDRとΘ上 π-可積分関数 hに対して π(h) :=

∫Θ h(θ)π(dθ)

とおく．.Theorem (DeRobertis and Hartigan(1981))..

......

U -可積分関数 h1, h2に対して次が成り立つ．ただしすべてのπ ∈ ΓDRについて h2 > 0 a.s.とする．(a) infπ∈ΓDR

π(h1)π(h2)

は U(h1 − λh2)− +L(h1 − λh2)

+ = 0の唯一の

解 λに等しい(b) supπ∈ΓDR

π(h1)π(h2)

は U(h1 − λh2)+ + L(h1 − λh2)

− = 0の唯一

の解 λに等しい

. . . . . .




γ(k)を具体的に計算してみると…

γ(2) = 0.276なので，θの priorに 2倍までの差を許容すると事後平均は長さ σ × 0.276の区間に収まる

γ(10) = 0.901なので，priorに 10倍までの差を許容しても範囲は σ × 1を超えない

→ ロバスト！

. . . . . .



3.8.2 Belief Functions

Belief Functions

いくつかの定義：

母数空間Θは Euclid空間

D：凸かつコンパクトな Euclid空間の部分集合

µ： D上確率測度

T : Dの各点にΘの空でない部分集合を対応させる写像

A ⊂ Θに対しA∗, A∗を次で定義：

A∗ = {d ∈ D : T (d) ⊂ A}

A∗ = {d ∈ D : T (d) ∩A ̸= ∅}.Definition (belief function, plausible function)..

......

belief function Bel と plausible function Pl をそれぞれ次で定義する：

Bel(A) = µ(A∗), P l(A) = µ(A∗)

. . . . . .




.Bel, Pl の直感的意味..

......

事前的な情報源Dからランダムに情報 dが得られるとき，

Bel(A) は「Aが正しい」ということを dが保証していること

Pl(A) は「Aが正しい」とすることに dが矛盾しないこと

を表している若干怪しい

Bel, Pl の性質：

0 ≤ Bel(A) ≤ Pl(A) ≤ 1

Bel(A) = 1− Pl(Ac)

Bel(∅) = Pl(∅) = 0, Bel(Θ) = Pl(Θ) = 1

Bel(A) = Pl(A)が任意のAについて成立するときBelは確率測度 (T の値がつねに 1点集合)

. . . . . .




.Definition (compatible)..

......

確率測度 P がBel, P lと両立であるとは，任意のAについてBel(A) ≤ P (A) ≤ Pl(A)であるときにいう．Bel, P lと両立な確率測度の全体を Cと書く．このとき C ̸= ∅であれば各Aに対し

Bel(A) = infP∈C

P (A), P l(A) = supP∈C

P (A)

となる．

この定義は，Belと Plがある確率測度のクラスのそれぞれ下限と上限を与えることを意味する

逆に，何らかの事前情報からBelと Plが得られれば，それらと compatibleな priorのクラスを考えることにでロバスト性が実現できそう

. . . . . .




h : Θ → R 有界な可測関数hの上側期待値E∗(h)と下側期待値E∗(h)をそれぞれ次で定義する：

E∗(h) = supP∈C

∫Θh(θ)P (dθ), E∗(h) = inf

P∈C

∫Θh(θ)P (dθ)

ここで

h∗(d) = supθ∈T (d)

h(θ), h∗(d) = infθ∈T (d)

h(θ)

とおくと

E∗(h) =

∫Dh∗(u)µ(du)

E∗(h) =

∫Dh∗(u)µ(du)

が成り立つ (Wasserman, 1990)

. . . . . .




考えている priorのクラスがある belief functionと compatibleであることがわかれば，事後分布の global measureが次の定理からわかる.Theorem (Wasserman(1990))..

......

Belは source(D,µ, T )をもつΘの belief functionとし，CをBelと両立する確率測度の全体とする．

L(θ) = f(x|θ)を尤度関数，LA(θ) = L(θ)IA(θ)とする．L(θ)が有界であるとき，A ⊂ Θに対して次が成り立つ

infπ∈C

π(A|x) = E∗(LA)

E∗(LA) + E∗(LAc)=

Eµ((LA)∗)

Eµ((LA)∗) + Eµ((LAc)∗)

supπ∈C

π(A|x) = E∗(LA)

E∗(LA) + E∗(LAc)=

Eµ((LA)∗)

Eµ((LA)∗) + Eµ((LAc)∗)

. . . . . .




ϵ-contamination classの global measure

belief functionを使って ϵ-contamination classの global measureが求められる例：

C = {π : π = (1− ϵ)π0 + ϵq, q ∈ Q}とおく．ここでQはすべての確率測度の集合とする．

Cに含まれる priorは，ある (D,µ, T )を sourceにもつ belieffunctionと compatibleになる．実際，D = Θ ∪ {d0}, µ = (1− ϵ)π′

0 + ϵδとし，

T (d) =

{{d} if d ∈ Θ

Θ if d = d0

とおく．ただし δは d0で 1となる点質量，π′0は d0で 0となり，

D − {d0}で π0と等価になる測度である．

. . . . . .




(compatibleであることの確認) ∀A ⊂ Θに対しA∗ = {d ∈ D : T (d) ⊂ A} ̸∋ d0，A∗ = {d ∈ D : T (d) ∩A ̸= ∅} = A ∪ {d0}だから

Bel(A) = (1− ϵ)π0(A)

≤ (1− ϵ)π0(A) + ϵq = π(A)

≤ (1− ϵ)π0(A) + ϵ · 1 = Pl(A)

よって定理 3.13より

supπ∈C

π(A|x) =(1− ϵ)

∫A L(θ)π0(dθ) + ϵ supθ∈A L(θ)

(1− ϵ)∫Θ L(θ)π0(dθ) + ϵ supθ∈A L(θ)

infπ∈C

π(A|x) =(1− ϵ)

∫A L(θ)π0(dθ)

(1− ϵ)∫Θ L(θ)π0(dθ) + ϵ supθ∈Ac L(θ)

. . . . . .



Interactive Robust Bayesian Analysis

Interactive Robust Bayesian Analysis

Berger(1994)推定 ⇌ 感度解析を繰り返して，ロバスト性が実現するまで priorのクラスを削っていきましょう，という話

※とりあえず図だけ

. . . . . .



Other Global Measures

その他のGlobal Measure

Ruggeri and Sivaganesan(2000)相対感度：

Rπ(θ) ={Eπ(h(θ)|x)− Eπ0(h(θ)|x)}2

V π(h(θ)|x)

事後分散 V πはある意味 h(θ)の推定精度を表していると考えられるので，推定値の差がこれに対して大きくなければロバ

スト，という感じのアイデア

chap03

Education