chap03
TRANSCRIPT
. . . . . .
Bayes ゼミ 第 8 回
アジェンダ
本日の範囲
3.5 Bayesian Analysis with Subjective Prior
3.6 Robustness and Sensitivity
3.7 Classes and Priors
3.8 Posteriors Robustness (← Global Measureまで)
. . . . . .
Bayes ゼミ 第 8 回
§3.5 Bayesian Analysis with Subjective Prior
復習 & 記号の定義
X : 標本空間, Θ: パラメータ空間
X ∼ f(x|θ), θ は prior π(θ) をもつ
(X, θ)の同時密度関数:
h(x, θ) = f(x|θ)π(θ)
X の周辺密度:
mπ(x) = m(x|π) =∫Θf(x|θ)dπ(θ)
π が文脈から明らかなときは m(x) とも書く
. . . . . .
Bayes ゼミ 第 8 回
§3.5 Bayesian Analysis with Subjective Prior
xが与えられたときの θの事後確率密度:
π(θ|x) = h(x, θ)
mπ(x)=
f(x|θ)π(θ)mπ(x)
事後平均: Eπ(θ|x) 事後分散: V π(θ|x)
. . . . . .
Bayes ゼミ 第 8 回
§3.6 Robustness and Sensitivity
ロバスト性とは
.ロバスト性..
......
(直感的には) 推定問題や決定問題の仮定の「不確かさ」が,結果に対してあまり影響を与えないこと
ここでいう「仮定」とは…
推定問題 → モデル,priorの選択
決定問題 → 上記 + 損失関数 (or utility) の選択
感度解析 (sensitivity analysis): 仮定の変化に対する「感度」を評価する
. . . . . .
Bayes ゼミ 第 8 回
§3.6 Robustness and Sensitivity
Example 3.1
X ∼ Poisson(θ)を観測する
θには「medianが 2で upper quartileが 4である」という事前情報
条件を満たす priorの候補として π1(指数分布),π2(対数正規分布),π3(対数 Cauchy分布) を考える事後平均Eπi(θ|x)を計算すると表 3.1に→ xが大きいところではけっこう差が出る
. . . . . .
Bayes ゼミ 第 8 回
§3.6 Robustness and Sensitivity
この例からわかることは…
共役事前分布 (π1)による推定と,スソの重い分布 (π3)による推定は大きく異なる
与えられた情報に対して妥当と思われる priorのクラスを考えても,その中での選び方によって結果が大きく変わること
がある
→ priorに関するロバスト性を考えることはやはり必要
. . . . . .
Bayes ゼミ 第 8 回
§3.7 Class of Priors
priorのクラスを選ぶ
priorのクラス Γの選び方としては,次のような性質をもつものが望ましい:
...1 「合理的な prior」をなるべく多く含む
...2 「非合理的な prior」をなるべく含まない
...3 抽出するのが困難な (priorに関する)情報を要求しない
...4 ロバスト性の尺度 (measure)を計算しやすい
具体的には…
conjugate class, neighbourhood class, density ratio class, ...
. . . . . .
Bayes ゼミ 第 8 回
§3.7 Class of Priors
3.7.1 Conjugate Class
Conjugate Class
共役事前分布のクラス
例: X ∼ N(θ, σ2), 分散 σ2既知
共役事前分布は θ ∼ N(µ, τ2)そこで次のような集合を考える:
ΓC = {N(µ, τ2) : µ1 ≤ µ ≤ µ2, τ21 ≤ τ2 ≤ τ22 }
. . . . . .
Bayes ゼミ 第 8 回
§3.7 Class of Priors
3.7.1 Conjugate Class
Conjugate classのメリット
事後的な量が求めやすい (閉じた解がある)
最適化が容易
デメリット
クラスが”小さすぎる”
priorの密度関数が尤度関数と同じ形 → priorのモーメントが結果に大きく影響
注: 共役事前分布の混合はロバスト性を持つことが知られている
. . . . . .
Bayes ゼミ 第 8 回
§3.7 Class of Priors
3.7.2 Neighborhood Class
Neighborhood Class
ひとつの priorπ0が与えられているときにその「近傍」のクラス
ΓN = {π : π0の近傍 }
例: ϵ-contamination class
Γϵ = {π : π = (1− ϵ)π0 + ϵq, q ∈ Q}
クラスの「ふくらませ方」Qを適当にとると,Γϵはロバスト性を
もつ (後述: Chapter3.8.2)
. . . . . .
Bayes ゼミ 第 8 回
§3.7 Class of Priors
3.7.3 Density Ratio Class
Density Ratio Class
U,Lを非負の値をとる関数として
ΓDR = {π : L(θ) ≤ απ(θ) ≤ U(θ), ∃α > 0}
=
{π :
L(θ)
U(θ′)≤ π(θ)
π(θ′)≤ U(θ)
L(θ′), ∀θ, θ′
}と書かれるクラス. (Chapter3.8.1)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
ロバスト性の尺度とは
何らかの尺度 (measure)を使ってロバスト性を定量評価したいここでは 2つの意味での尺度を扱う:
Global measure = 事後的な量の取りうる値の範囲
Local measure = priorの摂動に対する事後的な量の変化量(微分みたいなもの)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
Global Measure
.Global Measure..
......
priorがあるクラスの中の値をとるとき,興味のある事後的な量が取りうる値の範囲
例:
X1, . . . , Xn ∼ N(θ, σ2) i.i.d, σ2は既知
θの推定値として事後平均E(θ|x̄)に興味があるとするpriorのクラスとして Γ = {N(0, τ2) : τ2 > 0}をとる→ E(θ|x̄) = τ2
τ2+σ2 x̄より
E(θ|x̄) ∈ (0, x̄) or (x̄, 0)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
.ところで........「興味がある posterior quantity」って何?
→ Berger(1990)による分類(1) priorの線形汎関数例: 周辺尤度m(π) =
∫Θ l(θ)π(dθ)
(2) priorの線形汎関数の比例: 事後平均 Eπ(θ) = 1
m(π)
∫Θ θl(θ)π(dθ), 事後確率
(3)priorの非線形汎関数の比例: 事後分散 V π(θ) = 1
m(π)
∫Θ(θ − µ(θ))2l(θ)π(dθ)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
線形汎関数のGlobal Measure
興味のある量が priorの線形汎関数である場合,考えているクラスの「端点」での値を考えればよい
例:
X ∼ N(θ, σ2), σ2既知
ΓSU = {θ0に最頻値をもつ単峰かつ対象な分布 }このとき ΓSU に属する priorは θ0について対象な一様分布の混合で表現できる
→ ΓSU の extreme pointは U(θ0 − r, θ0 + r)という形の分布よってこの端点において infや supを計算すれば十分!
infπ∈ΓSU
m(π) = infr>0
1
2r
∫ θ0+r
θ0−r
1
σϕ
(x− θ
σ
)dθ
= infr>0
1
2r
{Φ
(θ0 + r − x
σ
)− Φ
(θ0 − r − x
σ
)}
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
線形汎関数の比のGlobal Measure
線形汎関数の「比」について考えるときは次の補題が役立つ.Lemma (Berger(1989))..
......
CT = {νt : t ∋ T} , T ⊂ RdをR上確率測度の集合,Cを CT の
凸包とする.また,h1, h2をR上で定義された実数値関数で次をみたすものとする:
(a)∫|h1(x)|dF (x) < ∞ for all F ∈ C
(b) ある定数K が存在してK + h2(x) > 0 for all xこのとき任意の kに対して次が成り立つ.
supF∈C
k +∫h1(x)dF (x)
K +∫h2(x)dF (x)
= supt∈T
k +∫h1(x)νt(dx)
K +∫h2(x)νt(dx)
infF∈C
k +∫h1(x)dF (x)
K +∫h2(x)dF (x)
= inft∈T
k +∫h1(x)νt(dx)
K +∫h2(x)νt(dx)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
さきの補題より,事後平均の global measureについて次が成り立つ.Theorem..
......
ΓSU を θ0にモードをもつ単峰かつ対象な priorの全体とすると,事後平均Eπ(g(θ)|x)について以下が成り立つ
supπ∈ΓSU
Eπ(g(θ)|x) = supr>0
12r
∫ θ0+rθ0−r g(θ)f(x|θ)dθ
12r
∫ θ0+rθ0−r f(x|θ)dθ
infπ∈ΓSU
Eπ(g(θ)|x) = infr>0
12r
∫ θ0+rθ0−r g(θ)f(x|θ)dθ
12r
∫ θ0+rθ0−r f(x|θ)dθ
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
ΓDRの考察
ΓDR := {π : L(θ) ≤ απ(θ) ≤ U(θ), ∃α > 0}π ∈ ΓDRとΘ上 π-可積分関数 hに対して π(h) :=
∫Θ h(θ)π(dθ)
とおく..Theorem (DeRobertis and Hartigan(1981))..
......
U -可積分関数 h1, h2に対して次が成り立つ.ただしすべてのπ ∈ ΓDRについて h2 > 0 a.s.とする.(a) infπ∈ΓDR
π(h1)π(h2)
は U(h1 − λh2)− +L(h1 − λh2)
+ = 0の唯一の
解 λに等しい(b) supπ∈ΓDR
π(h1)π(h2)
は U(h1 − λh2)+ + L(h1 − λh2)
− = 0の唯一
の解 λに等しい
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
ΓDRについて,N(θ, σ2)の平均パラメータ θの,事後平均のglobal measureを計算してみる
LはR1上 Lebesgue測度,U = kL, k > 1ととる.Eπ(θ|x) = π(θf(x|θ))
π(f(x|θ)) と書けるから,定理より infπ∈ΓDREπ(θ|x)は
k
∫ λ
−∞(θ − λ)f(x|θ)dθ +
∫ ∞
λ(θ − λ)f(x|θ)dθ = 0
の唯一の解 (supも同様)これを解いてみると
Eπ(θ|x) ∈(x− σ
γ(k)
k, x+ σ
γ(k)
k
)となることがわかる
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.1 Global Measure of Sensitybity
γ(k)を具体的に計算してみると…
γ(2) = 0.276なので,θの priorに 2倍までの差を許容すると事後平均は長さ σ × 0.276の区間に収まる
γ(10) = 0.901なので,priorに 10倍までの差を許容しても範囲は σ × 1を超えない
→ ロバスト!
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
Belief Functions
いくつかの定義:
母数空間Θは Euclid空間
D: 凸かつコンパクトな Euclid空間の部分集合
µ: D上確率測度
T : Dの各点にΘの空でない部分集合を対応させる写像
A ⊂ Θに対しA∗, A∗を次で定義:
A∗ = {d ∈ D : T (d) ⊂ A}
A∗ = {d ∈ D : T (d) ∩A ̸= ∅}.Definition (belief function, plausible function)..
......
belief function Bel と plausible function Pl をそれぞれ次で定義する:
Bel(A) = µ(A∗), P l(A) = µ(A∗)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
.Bel, Pl の直感的意味..
......
事前的な情報源Dからランダムに情報 dが得られるとき,
Bel(A) は「Aが正しい」ということを dが保証していること
Pl(A) は「Aが正しい」とすることに dが矛盾しないこと
を表している 若干怪しい
Bel, Pl の性質:
0 ≤ Bel(A) ≤ Pl(A) ≤ 1
Bel(A) = 1− Pl(Ac)
Bel(∅) = Pl(∅) = 0, Bel(Θ) = Pl(Θ) = 1
Bel(A) = Pl(A)が任意のAについて成立するときBelは確率測度 (T の値がつねに 1点集合)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
.Definition (compatible)..
......
確率測度 P がBel, P lと両立であるとは,任意のAについてBel(A) ≤ P (A) ≤ Pl(A)であるときにいう.Bel, P lと両立な確率測度の全体を Cと書く.このとき C ̸= ∅であれば各Aに対し
Bel(A) = infP∈C
P (A), P l(A) = supP∈C
P (A)
となる.
この定義は,Belと Plがある確率測度のクラスのそれぞれ下限と上限を与えることを意味する
逆に,何らかの事前情報からBelと Plが得られれば,それらと compatibleな priorのクラスを考えることにでロバスト性が実現できそう
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
h : Θ → R 有界な可測関数hの上側期待値E∗(h)と下側期待値E∗(h)をそれぞれ次で定義する:
E∗(h) = supP∈C
∫Θh(θ)P (dθ), E∗(h) = inf
P∈C
∫Θh(θ)P (dθ)
ここで
h∗(d) = supθ∈T (d)
h(θ), h∗(d) = infθ∈T (d)
h(θ)
とおくと
E∗(h) =
∫Dh∗(u)µ(du)
E∗(h) =
∫Dh∗(u)µ(du)
が成り立つ (Wasserman, 1990)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
考えている priorのクラスがある belief functionと compatibleであることがわかれば,事後分布の global measureが次の定理からわかる.Theorem (Wasserman(1990))..
......
Belは source(D,µ, T )をもつΘの belief functionとし,CをBelと両立する確率測度の全体とする.
L(θ) = f(x|θ)を尤度関数,LA(θ) = L(θ)IA(θ)とする.L(θ)が有界であるとき,A ⊂ Θに対して次が成り立つ
infπ∈C
π(A|x) = E∗(LA)
E∗(LA) + E∗(LAc)=
Eµ((LA)∗)
Eµ((LA)∗) + Eµ((LAc)∗)
supπ∈C
π(A|x) = E∗(LA)
E∗(LA) + E∗(LAc)=
Eµ((LA)∗)
Eµ((LA)∗) + Eµ((LAc)∗)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
ϵ-contamination classの global measure
belief functionを使って ϵ-contamination classの global measureが求められる例:
C = {π : π = (1− ϵ)π0 + ϵq, q ∈ Q}とおく.ここでQはすべての確率測度の集合とする.
Cに含まれる priorは,ある (D,µ, T )を sourceにもつ belieffunctionと compatibleになる.実際,D = Θ ∪ {d0}, µ = (1− ϵ)π′
0 + ϵδとし,
T (d) =
{{d} if d ∈ Θ
Θ if d = d0
とおく.ただし δは d0で 1となる点質量,π′0は d0で 0となり,
D − {d0}で π0と等価になる測度である.
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
3.8.2 Belief Functions
(compatibleであることの確認) ∀A ⊂ Θに対しA∗ = {d ∈ D : T (d) ⊂ A} ̸∋ d0,A∗ = {d ∈ D : T (d) ∩A ̸= ∅} = A ∪ {d0}だから
Bel(A) = (1− ϵ)π0(A)
≤ (1− ϵ)π0(A) + ϵq = π(A)
≤ (1− ϵ)π0(A) + ϵ · 1 = Pl(A)
よって定理 3.13より
supπ∈C
π(A|x) =(1− ϵ)
∫A L(θ)π0(dθ) + ϵ supθ∈A L(θ)
(1− ϵ)∫Θ L(θ)π0(dθ) + ϵ supθ∈A L(θ)
infπ∈C
π(A|x) =(1− ϵ)
∫A L(θ)π0(dθ)
(1− ϵ)∫Θ L(θ)π0(dθ) + ϵ supθ∈Ac L(θ)
. . . . . .
Bayes ゼミ 第 8 回
§3.8 Posterior Robustness: Measures and Techniques
Interactive Robust Bayesian Analysis
Interactive Robust Bayesian Analysis
Berger(1994)推定 ⇌ 感度解析 を繰り返して,ロバスト性が実現するまで priorのクラスを削っていきましょう,という話
※とりあえず図だけ