カイ2乗分布、最小二乗法、カイ二乗フィット - osaka...
TRANSCRIPT
統計的データ解析 2008
2008.10.21林田 清
(大阪大学大学院理学研究科)
問題B1. およそFWHM120eVのエネルギー分解能をもつX線検
出器を使って、6keV付近の単一エネルギーX線を測定する。 X線のエネルギーの値を1eVの精度で決定するためには何個のX線イベントを検出すればよいか?
2. 二項分布の極限としてポアソン分布が導かれることを示せ(=自分で式をかいて復習せよ)
3. ある時間の間での放射線源の崩壊数を二項分布で考える場合のnとpは何をさすか?
4. 関西地域の世帯視聴率は600世帯の調査をもとに算出されている。ある番組の視聴率が10%であったときの統計誤差を評価せよ。(二項分布はポアソン分布で近似してよいとする)
https://www.videor.co.jp/data/ratedata/henkou.htm参考
5. 1MpixelのCCDで、1フレームの露出中に同じピクセルに2個以上のX線が入る確率を1%以下におさえたい。X線イベントの数をどのように設定すべきか?シングルイベントのみが発生しており、照射強度はCCD全面で一様と仮定する。
正規分布
Bevington &Robinson
2
2
1 ( )( ; , ) exp( )22G
xP x μμ σσπσ−
= −
Excelでの練習normdist, norminv,normsdist,normsinvソルバー 両側確率と片側確率を区別せよ
χ2分布
2
2 2
2 2
2 2 /2 1 /2 /2
22
2
2
2 2( )
0 1
( ) {( ) } / 2 ( / 2)
( )
( ) 2
i
i
x x
n
n
V
e
x
n
E
ν χ νν
χ
χ ν χ
χ χ
χ
ν
μ
χ
μ σ χσ
ν χ ν
− −
=
= Γ
−
= =
∑
∑
n
i=1
n
i=1
平均値 ,標準偏差 の正規分布
に従う変
自由度 の (カイ
数 の自乗和
が従う分布を自由度 の 分布と呼ぶ。 一般に自由度 の 分布は
f
平均値 ,標準
期待値 分散
偏差 の正規分布に従う も自
二乗)
由度
の
分布
分
22
2
2 2 2
2
( ) 1ix x n
m lm l
χσ
χ χ χ
χ
−−
+
∑n
i=1
布、
はしかし自由度 の 分布
分布の加算:自由度 の 分布に従う変数と自由度の 分布に従う
変数の和は、自由度 の 分布に従う。
0
0.1
0.2
0.3
0.4
0.5
0 5 10 15
P(χ
2 )
χ2
χ2 distribution
dof=1 dof=2
dof=4 dof=6
t分布とF分布
2
2( ) / / 10
x nx s
t x
t
s n nn
μ σ
μ φ
φ
= − = −
平均値 ,標準偏差 の正規分布に従う変数 から 個を
抜き出して、その平均値を 、標本分散を とする
は自由度 のt分布に従う。
が大きいとき標準正規分布(平均値 、標準偏差1)で
近似できる
平均値の検定、母平均の区間推定、平均値の差の検定などに
使用する(正規分布で近似してしまう場
自
合
由度 の 分布
も多い)
2 2 2 21 1 2 2
21 1
22
1
2
2
2
1
,
//
,
F
F F
φ χ χ φ χ χ
χ φχ
φ
φ φ
φφ
=
自由度 のF(エフ
自由度 の 分布に従う変数 と自由度 の 分布に従う変数 が
を使い、
で確率変数 を定義する。 が従う分布が自由度 のF(エフ)分布
F検定、分散分析などに使
)分布
用される。
データのモデル化、最小二乗フィット
フィッティングとは
最小二乗フィットの基礎となる最尤法の考え方
あてはめのよさの検定:カイ二乗検定
パラメータの推定誤差
最尤法の直接的利用
データのモデル化、あてはめ(Fit)、回帰
ばらつきのある測定値に適当なモデル(直線や曲線)であてはめること
モデル
直線の場合。。。線形回帰
多項式の場合
一般の関数の場合
データの誤差
各点共通の場合
各点で重みが異なる場合
モデル点のまわりのばらつき
正規分布の場合
それ以外の場合
0
5
10
15
0 2 4 6 8 10X
-1
0
1
2
3
4
5
0 2 4 6 8 10
X
最小二乗フィット : 直線モデルの例 問題の設定
0 0
0 0 0
0
( ),
,( )
( )
i i
i i i
x y x yy x ax b
a b
a by x a x b
y y x σ
= +
= +
測定値の組( , )があり、独立変数と従属変数の間の関係を
で近似するとき 、 に関する最も確からしい推定値は
どうやって決められるか?
母集団における係数を とし、”真”の関係式を
さらに測定値 は平均値 、標準偏差 の
正規分布に従うと仮定する。
0
5
10
15
0 2 4 6 8 10X
正規分布に従う母集団から標本を1個採ってくるのが測定
最小二乗フィット: 最尤法がベース
2
0
2
00 0
11 1
( )1 1exp22
( )1 1( , ) exp22
,
1 1( , ) exp22
i i
i ii
ii
i
n n ni i
iii i ii
i
i
y P
y y xP
n y
y y xP a b P
a b y
yP a b
σσ π
σσ π
σ π
== =
⎡ ⎤⎛ ⎞−⎢ ⎥= − ⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦
⎡ ⎤⎛ ⎞ ⎛ ⎞−⎢ ⎥= = −⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎢ ⎥⎝ ⎠⎝ ⎠ ⎣ ⎦
⎛ ⎞= −⎜ ⎟⎜ ⎟
⎝ ⎠
∑∏ ∏
を観測する確率 は
個の観測値 の組を得る確率は
同様に任意の係数推定値 に従うときに観測値 の組を得る確率は
2
11
0 0
0 0
( )
( , )( , ) ( , ) ( , )
n ni i
ii i
y x
P a bP a b a b a b
σ==
⎡ ⎤⎛ ⎞−⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦
∑∏
観測は母集団 から採取する操作。
の最大値を与えるような が の最尤推定値。
最尤法の考え方
最小二乗フィット: 直線モデルの例 パラメータの決定
2 2
2
2 2 2 2
2
2 2 2
2 2
2
2
2 2
2
1 1
2
2
0, 0
,
1 1
1
1
( )
( , )
i i i i
i i i i
n ni i i
i i i i i
i i i i
i i
i i i
i
i ii i
a b
x y x ya
x y x x
y y
y
x y ax b
P a b
b
x x
χ χ
χ
σ σ σ σ
σ σ σ
χσ σ
σ
σ σ σ
χ= =
∂ ∂= =
∂ ∂
⎛ ⎞= −⎜ ⎟Δ ⎝ ⎠
⎛ ⎞= −⎜ ⎟Δ ⎝ ⎠
⎛ ⎞Δ = −
⎛ ⎞ ⎛ ⎞− − −≡ =
⎜⎝
⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
∑ ∑ ∑ ∑
∑ ∑ ∑
∑ ∑
∑
∑
a b
から を最小
を最大にする
にす
= を最小にす
とし
ただ
る
る て
し
2
⎟⎠
∑ ∑
二乗の和を最小にするので最小二乗フィットと呼ぶ。
χ2フィットともいう。
( )
( )
( )
( )
( )
2
2
2
1
2
2
1 , )
,
, ) ( )
1
,
1
n
i i
i i i
i
i i
i i
i
i i i i i
i i
y ax b a b
x y
x
a n x y x y
b x y x x y
n x
b
x
ax a b
χσ =
= −
= −Δ
= −
Δ = −
+
Δ
−
∑ ∑ ∑
∑ ∑ ∑ ∑
∑
∑ ∑
2
各点の誤差が同一のとき
を最小にする( を
求めることは、各測定点 とモデル点
( の距離のニ乗和を最小にする
を求める
ただ
価
し
ことと等
あてはめの良さ(Goodness of Fit)
2 22
1 1
2 2 2
( )
( ,-
,
( / )
n ni i i i
i ii i
y y x y ax b
n m m a bn m
a b
ν
χσ σ
χ ν χ χ ν
= =
⎛ ⎞ ⎛ ⎞− − −≡ ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠−
≡
∑ ∑(直線モデルの場合 )
は自由度 はパラメータの数、直線の場合 で2)
の に従う。 期待値は 。
これがあてはめの良さ(仮定したモデル関数の妥当性、
パラメータ が適当であること、測定誤差が正しく評価
されていること)の基準になる。
を自
カイ自乗分布
由度 で割った reduced chi-squareを という。
( )i ii
i
y y xt
σ−
= は中心0,標準偏差1の正規分布に従う残差
誤差
問題C
1. xにも誤差がある場合どのように扱うべきか?x,yが独立で、それぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を例にとって考えよ。(ヒント:上の式)
2. yの値のモデル点まわりの分布が正規分布からずれている場合、最尤法に立ち戻って考える必要がある。例えばポアソン分布の場合は、どうなるか?尤度をあらわす式をかき、直線モデルのパラメータa,bを決めるための手順を示せ。
3. 6keV付近で“およそ”120eVFWHM程度のエネルギー分解能をもつ検出器がある。エネルギー分解能を1eVの誤差(標準偏差)で求めるためには、X線イベントをどのくらい集める必要があるか。
4. ガウシアン+定数のモデルで与えられたデータ点をカイ2乗フィットせよ。出力されるフィット結果の数字の意味(定義)を調べること。また、ガウシアン関数として、二通りの形(10/14の資料参照)を試し、積分強度とその誤差を計算し、共分散の寄与を確認せよ。
( ) ( )
( )
( ) ( )
2 2
2 2
2 2
2 2
ˆ ˆ1 1ˆ( , ; , , , ) exp exp2 22 2
ˆ ˆ ˆ ˆ,
ˆ ˆ1ˆ( , ; , , , ) exp exp2 2 2
i ii i xi yi
xi yixi yi
i i i ii i xi yi
xi yi xi yi
x x y yP a b x y dx
x y y ax b
x x y ax b y axP a b x y dx
σ σσ σπσ πσ
σ σπσ σ σ σ
⎛ ⎞ ⎛ ⎞− −⎜ ⎟ ⎜ ⎟= − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
= +
⎛ ⎞− − − − −⎜ ⎟= − − ∝ −⎜ ⎟⎝ ⎠
∫
∫
ただし は であらわされる直線モデル上の点
( )( )
2
2 2 22 xi yi
ba σ σ
⎛ ⎞⎜ ⎟⎜ ⎟+⎝ ⎠
追加:3x3ピクセル内に2光子入るイベントを1%以下にする条件