6 赤池情報量規準 - phys.chuo-u.ac.jp · 6.2 赤池情報量規準...

29
6 赤池情報量規準 情報量 → 尤度 → 尤度最大が「もっとも確からしい」 このアイディアは素晴しいが、大きな問題が 1つある。

Upload: others

Post on 06-Nov-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

6 赤池情報量規準

情報量 → 尤度 → 尤度最大が「もっとも確からしい」

このアイディアは素晴しいが、大きな問題が1つある。

6.1 誤差が少なければいいのか ?

リンゴの作柄と気温の関係

作柄=定数 1× 温度 + 定数2 + 誤差

という仮定をすると最小二乗法は「尤度最大」という意味で理に適っていた。

作柄=定数 1× 温度 + 定数2 × 温度 2 + 定数 3 + 誤差

しかし、これと

を比べるとどうだろうか ?

誤差の2乗和はこっちが絶対小さい

理由:

作柄=定数 1× 温度 + 定数2 + 誤差

の方が小さいとしよう。これは

作柄=定数 1× 温度 + 定数2 × 温度 2 + 定数 3 + 誤差

において、定数 2 = 0 にしたのと同じである。よって、前者の方が誤差の2乗和が小さいと言うことはありえず、たかだか「同じ」がいいところだが、一般的には小さくなるはずである。

更にこれでやめる理由は何もなく ....

作柄=定数 1× 温度 + 定数2 × 温度 2

+ 定数 3 × 温度 3 + 定数 4 + 誤差

を考えることもできる。これはもっと誤差の2乗和が小さくなるだろう。

これはどこまでもつづけられるか? → No

(温度、作柄)のデータ点は5組しかない。だったら、定数1から5までで「式が5つで未知数5つ」になり誤差=0でも解があることになる。

青:誤差ゼロの曲線 ( 定数 5 個 )緑:定数2個の直線

どうみても緑がましだが、青は誤差ゼロなので尤度からすると青の方がもっともらしい。どうする ?

6.2 赤池情報量規準

「定数をどんどん増やして行くと誤差が小さくなってよくなった様にみえる」

ことに対する防止策:

赤池情報量規準 (AIC) → 最小がベスト

AIC = - 2(最大対数尤度-自由パラメータ数)

定数の数が増えると誤差の2乗和は減るがパラメータが増えると損をするペナルティが課されている。

(じゆう

(自由パラメータ数は最小二乗法では定数の数)

最小二乗法場合、対数尤度は

であった ( 誤差がガウス分布であることより ) 。

σ :標準偏差

実測値に一致させておけば対数尤度は最大なので

最大対数尤度

最大対数尤度は誤差の二乗が小さくなると小さくなって行く。

AIC を考えると定数の数を増やして誤差の2乗和を小さくしても損をするかもしれない。

AIC として

を採用しよう。

(誤差の二乗に関係ない項は除いた)

具体例:リンゴの作柄と温度の問題

定数を増やして行くと、

定数を2個から3個へ: ペナルティが効いて改善しない

定数 4 個:劇的によくなる

定数2個と3個の比較

確かに、定数が2個と 3 個では3個がいいとは思えない。

定数が4個の場合の実際

まさにどんぴしゃりという感じ

6.3 サイコロはフェアか?

サイコロを振ると通常は 6 つの目は同じ確率では出ない。同確率からどれくらいずれたら、「ずるいサイコロ」と思っていいのだろうか ?

N 回振ったとする。 i の目が Ni回出たとしよう。 (i=1,..,6)全ての目が 1/6 の確率で出ると思ったときの対数尤度

自由なパラメータは無いからゼロ個

qi = Ni/N ≠ 1/6 対数尤度は

AIC は、

Niが「自由パラメータ」だが、 Σi Ni = N なので独立なのは 5 個だけ

例: N=10,(N1,N2,N3,N4,N5,N6)= (1,2,1,2,2,2)

確かに 1/6 ずつでてはいないが、 N = 10 では1/6 ずつ出ようが無いだろう。AIC で比べるとどうなる ?

qi = Ni/N

qi = 1/6

qi =1/6 の方が AIC が小さいのでもっともらしい

例: N=100, (N1,N2,N3,N4,N5,N6)= (10,20,10,20,20,20) qi = Ni/N

qi = 1/6

今度は qi ≠ 1/6 の方がもっともらしいのでフェアなサイコロとはいえない。

6.4 「解らない」から「つまらない」?

講義アンケート

「理解できましたか」「興味がもてましたか」

よく「解れば面白い。解らないからつまらない」というが本当か ? → この講義のアンケートで調べてみよう。

12/9 のアンケートの結果:クロス集計

「対角線にしか値がないから、やっぱり『解らないからつまらない』なんだ ! 」 → 本当か ?

「理解度」と「興味度」が 関係しないとするとどうなる ?

NiA: 興味度が i だった人数の総計

NjB: 理解度が j だった人数の総計

NiA/N: 興味度が i である確率

NjB/N: 理解度が j である確率

(NiA/N)×(Nj

B/N): 興味度が i で理解度が j である確率

これで計算してみると ...

「理解度と興味度は関係ない」という仮定に基づくクロス集計

対角線からはずれたところにも値があるが似てないこともない。本当にこれと違うのだろうか ?

AIC を用いたチェック

「理解度と興味度は関係ある」場合

「興味度が i で理解度が j だった確率は Nij/N 」

対数尤度

自由度: Nij の総数 25 だが、全部足して Nなので 24 個しか自由に決められない

AIC を用いたチェック

「理解度と興味度は関係ない」場合

「興味度が i で理解度が j だった確率は」 (Ni

A/N)×(NjB/N)

対数尤度

自由度: NAi,NB

j の総数は 5 個ずつだが、各々全部足して N なので 4 個ずつしか自由に決められないので計 8 個

→ 315

→ 375

やっぱり「解らないとつまらない」は正しい。

演習問題

適当な問題を設定し、複数の異なった自由パラメータ数に対して最大対数尤度を計算し、 AIC を計算して、どれがもっともふさわしいモデルであるかを決せよ。

p102

6.5 gnuplotによる最小二乗法

gnuplot (http://www.gnuplot.org) :フリーウェア

6.5.1 データ準備

23.5 50 17.5 1821.5 2618 2015 4

ファイル名: fig1.dat

x y

6.5.2 プログラミング

f(x)=a*x+b #関数の定義fit f(x) 'test.dat' via a,b #最小二乗法の実行plot 'fig1.dat' ,f(x) #元データと最小 二乗法の結果を描画pause -1 #一時停止set term post eps #postscriptファイル の作成準備set out 'test.eps' #出力先ファイル名の設定replot #postscriptファイルの出力

6.5.3 実行

% gnuplot test.gnu

6.5.4 定数を増やす

f(x)=a*x**2+b*x+c #関数の定義fit f(x) 'test.dat' via a,b,c #最小二乗法の実行