統計的学習の基礎6章前半 #カステラ本

39
統計的学習の基礎: 6-1 ~ 6-4 カーネル平滑化法 @siero5335 20161004 @Yahoo! 統計的学習の基礎 読書会#1

Upload: akifumi-eguchi

Post on 16-Apr-2017

659 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 統計的学習の基礎6章前半 #カステラ本

統計的学習の基礎:6-1~6-4カーネル平滑化法

@siero533520161004@Yahoo!

統計的学習の基礎 読書会#1

Page 2: 統計的学習の基礎6章前半 #カステラ本

カーネル平滑化?

領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る(局所的に上手く当てはまるようにする)。

Page 3: 統計的学習の基礎6章前半 #カステラ本

カーネル平滑化?

領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る(局所的に上手く当てはまるようにする)。観測点xiにx0からの距離に基づく重みを付与する重み関数であるカーネル Kλ(x0,xi)を介して局所重み付けが実現される。トレーニングはほぼ不要。訓練データから決めるパラメータはλだけ。

Page 4: 統計的学習の基礎6章前半 #カステラ本

カーネル平滑化?

領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る(局所的に上手く当てはまるようにする)。観測点xiにx0からの距離に基づく重みを付与する重み関数であるカーネル Kλ(x0,xi)を介して局所重み付けが実現される。トレーニングはほぼ不要。訓練データから決めるパラメータはλだけ。この章でのカーネルは局所回帰に特化したもので、サポートベクターマシンみたいな高次元特徴空間での内積を計算するカーネルとはちょっと違う(関係はしている?→7章で詳細)

Page 5: 統計的学習の基礎6章前半 #カステラ本

カーネル平滑化?

領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る(局所的に上手く当てはまるようにする)。観測点xiにx0からの距離に基づく重みを付与する重み関数であるカーネル Kλ(x0,xi)を介して局所重み付けが実現される。トレーニングはほぼ不要。訓練データから決めるパラメータはλだけ。この章でのカーネルは局所回帰に特化したもので、サポートベクターマシンみたいな高次元特徴空間での内積を計算するカーネルとはちょっと違う(関係はしている?→7章で詳細)こんなのがどこかにあったような?

Page 6: 統計的学習の基礎6章前半 #カステラ本

1次元カーネル平滑化手法(KNNカーネル)着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る。→2章のKNN:f^(X)=Ave(yi|xi∈Nk(x))を推定値にした場合

近傍カーネルではf^(x)がxにおいて不連続なので予測値が波打っている

拡大

Page 7: 統計的学習の基礎6章前半 #カステラ本

1次元カーネル平滑化手法

予測値が波打つような不連続なのは見栄えが良くないので避けたい→近傍に含まれる全ての点に対し、等しく重みをつけているのがよくない→着目点からの距離に応じて重みが減少すれば良い感じになるナダラヤ=ワトソン重み付きカーネル

Page 8: 統計的学習の基礎6章前半 #カステラ本

1次元カーネル平滑化手法

ナダラヤ=ワトソン重み付きカーネル今回はカーネルKλ(x0,xi)にイパネクニコフ2次カーネルを使う

! = !!(!! , !!)!!!!!!

!!(!! , !!)!!!!

D(t)=

34 1− !! ! ≤ 1��

0その他の場合

!! !! , ! = ! !− !!λ

! = !− !!λ

Page 9: 統計的学習の基礎6章前半 #カステラ本

1次元カーネル平滑化手法 (ナダラヤ=ワトソンカーネル)

着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る。

→ナダラヤ=ワトソンカーネルの場合(イパネクニコフ:λ=0.2)

ナダラヤ=ワトソンカーネルだとスムーズな線になっている

拡大

Page 10: 統計的学習の基礎6章前半 #カステラ本

1次元カーネル平滑化手法

ナダラヤ=ワトソン重み付きカーネル今回はカーネルKλ(x0,xi)にイパネクニコフ2次カーネルを使う

! = !!(!! , !!)!!!!!!

!!(!! , !!)!!!!

D(t)=

34 1− !! ! ≤ 1��

0その他の場合

!! !! , ! = ! !− !!λ

! = !− !!λ

Page 11: 統計的学習の基礎6章前半 #カステラ本

その他のカーネル

ナダラヤ=ワトソン重み付きカーネル矩形3次カーネルガウス密度関数

! = !!(!! , !!)!!!!!!

!!(!! , !!)!!!!

D(t)=

0その他の場合

!! !! , ! = ! !− !!λ

! = !− !!λ

1− ! ! ! ! ≤ 1 ��

D(t)=φ(t):標準偏差が窓幅と同じ役割を示す

Page 12: 統計的学習の基礎6章前半 #カステラ本

その他のカーネル

ElementsofStaRsRcalLearning(secondediRon):Fig.6.2HasRe,TibshiraniandFriedman(2009)

矩形3次カーネルは台の境界で連続導関数を持つガウスカーネルは連続微分可能・無限の台を持つ

Page 13: 統計的学習の基礎6章前半 #カステラ本

注意点

平滑化パラメータλの決定

λ大きい→分散が小さくなり、バイアスが大きくなるカーネルの基準幅(定数hλ(x))

推定値のバイアスを一定に抑える傾向があるが、分散は局所的な密度に反比例する。 近傍窓の場合はこの逆同じxiに複数のデータが有るときは間引いたり平均したり重み付けをしたりするが、重みの付け方は難しいデータの境界部ではカーネルの基準幅ないの近傍点の数が減ったり、 近傍点の入る領域が増えたりするので注意

Page 14: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS)

ナダラヤ=ワトソン LOESS

Page 15: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS)

ナダラヤ=ワトソン LOESS

領域の境界上や近傍にバイアス問題を含んでいるここでは近傍に含まれる観測値の殆どが着目点より大きい平均値を持つので上向きのバイアスを持つ

LOESSだとバイアスが1次まで除去される

Page 16: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):推定値

局所重み付け回帰ではそれぞれの着目点x0において別々に重み付き 小2乗誤差問題を解く

この時推定値はこのモデルは領域のすべてのデータを使って線形モデルを当てはめるが、単一の点x0を評価するためだけに使っている

min!(!!),!(!!)

!! !! , !! [!! − α !! − β !! !!]!!

!!!

! !! = α !! + β !! !!

Page 17: 統計的学習の基礎6章前半 #カステラ本

ベクトル値関数をb(x)T=(1,x)第i行がでb(x)TであるN×2の回帰行列=B第i対角要素がKλ(x0,xi)であるN×Nの対角行列=W(x0)

とすると、先程の推定値

はの様に書ける

重みli(x0)は重み付きカーネルと 小二乗法を組み合わせたもので等価カーネルと呼ばれる

局所重み付け回帰(LOESS):等価カーネル

! !! = ! !! ! !!! !! ! !!!!! !! !

= !! !! !!!

!!!

! !! = α !! + β !! !!

(推定値がyiに対し線形,li(x0)が重み)

Page 18: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):カーネルの自動手直し

ElementsofStaRsRcalLearning(secondediRon):Fig.6.4HasRe,TibshiraniandFriedman(2009)

緑:局所回帰に対する等価カーネル黄色 ナダラヤ=ワトソン局所平均に対する等価カーネル

ナダラヤ=ワトソンだと重みが対称になっているが、局所回帰の場合は非対称性に起因するバイアスを修正するように重みを改良

Page 19: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):推定値の期待値

!! !! = !! !! !(!!)!

!!!

= !(!!) !! !!!

!!!+ !!(!!) !! − !!

!

!!!!! !! + !

!!(!!)2 !! − !! !!! !! + !

!

!!!

残差項Rはfの3次またはそれ以上の導関数を含む滑らかさについての過程が適切なら通常は小さい値になる局所線形回帰では=1,=0なので、第2項まではf(x0)と一緒

バイアスは-f(x0)なので、バイアスはfの展開の2次以上に依存

局所回帰の線形性と真の関数fのx0周りの級数展開から推定値の期待値について考える

!! − !!!

!!!!! !! !! − !! !!! !! + !

!

!!!

!! !! = !! !! !(!!)!

!!!

Page 20: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):多項式の場合

LOESS1次 LOESS2次

Page 21: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):多項式の場合

局所2次回期だと個々のバイアスを修正できる(分散は増加する)

次数に関してバイアス=バリアンストレードオフがあるので末端部分などでの分散が大きくなりやすい

LOESS1次 LOESS2次

Page 22: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):多項式の場合

min!(!!),!(!!)

!! !! , !! [!! − α !! − β !! !!]!!

!!! LOESS1次

LOESSd次min

!(!!),!(!!),!!!,…,!!! !! , !! [!! − α !! − β! !! !!!

!

!!!]!!

!!!

LOESS1次 LOESS2次

Page 23: 統計的学習の基礎6章前半 #カステラ本

局所重み付け回帰(LOESS):多項式まとめ

局所線形当てはめは分散を大きくしすぎることなくバイアスを減らせる2次当てはめだと境界のバイアスを減らさないが分散を大きく増加させる2次当てはめは多くの場合領域内部の関数の湾曲に起因するバイアスを上手く減らせる漸近解析より、奇数次数の多項式が偶数のそれより支配的であることが期待されるMSEが境界の影響に支配されるため(?)

Page 24: 統計的学習の基礎6章前半 #カステラ本

カーネル幅の選択

カーネル幅色々

イパネクニコフ,矩形3次:台領域の半径

ガウスカーネル:標準偏差

k近傍:kの数窓の幅が変わると?

窓が狭い:推定値がx0に近い少数のyiの平均になり、分散は対応するyiの分散より相対的に大きくなる推定値の期待値がf(x0)に近づくのでバイアスは小さくなる

窓が広い:上記の逆

Page 25: 統計的学習の基礎6章前半 #カステラ本

多次元における局所回帰

カーネル平滑化,局所回帰はより高次元へ自然に一般化されるナダラヤ=ワトソンカーネル平滑化p次元カーネルによって与えられる重みを局所的に一定値に割り当て局所線形回帰p次元カーネルによって与えられる重みで重み付けされた

小2乗法により,Xの空間において局所的に超平面を割り当て

Page 26: 統計的学習の基礎6章前半 #カステラ本

多次元における局所回帰

b(X)をXに含まれる 大次数dの多項式ベクトルとする

d=1,p=2のときb(X)=(1,X1,X2),d=2のときb(X)=(1,X1,X2,X12,X22,X1,X2)d=0のときb(X)=1

それぞれのx0∈Rpにおいてを解いて の当てはめを得る

min!(!!)

!! !! , !! (!! − ! !! !β !! )!!

!!!

! !! = ! !! !β !!

Page 27: 統計的学習の基礎6章前半 #カステラ本

多次元における局所回帰

!! !! , ! = ! !− !!λ

このカーネルはイパネクニコフや矩形3次みたいな動径関数になるll・llはユークリッドノルムユークリッドノルムは座標の単位に依存するので、平滑化に先立ち変数の標準化をしておくと良い

Page 28: 統計的学習の基礎6章前半 #カステラ本

多次元における局所回帰:図示

galaxyデータの局所解析幅=15%とした散布図などは大まかな傾向見るには良いが、条件ごとに図を用意するほうが良いかも?

Page 29: 統計的学習の基礎6章前半 #カステラ本

多次元における局所回帰:図示

ElementsofStaRsRcalLearning(secondediRon):Fig.6.9HasRe,TibshiraniandFriedman(2009)

条件ごとに図を用意した図

ElemStatLearnpakageにデータはあるものの記述の条件がイマイチ不明…

Page 30: 統計的学習の基礎6章前半 #カステラ本

多次元における局所回帰:問題点

1次元平滑化のとき境界での当てはめに問題があった多次元のとき境界上の各点の比率が大きくなるのでより大きな問題にこのため3次元よりもはるかに次元が高い場合、局所回帰はあまり有用ではなくなってしまう次元数pに対して指数的に総標本数が増えないと…

Page 31: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰

次元数pに対して指数的に総標本数が増えないと局所回帰はあまり役に立たないので、何らかの内部構造を仮定して次元削減的なことをするとうまくいく事がある

→構造化局所回帰その中でも

構造化カーネル,構造化回帰関数がカーネル法に直接関連するアプローチとして知られている

Page 32: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰:構造化カーネル

カーネルを修正し、半正定値行列Aを異なる座標の重み付けに使うと良い半正定値行列Aに適切な制約を課すと、幾つかの座標や方向をまるごと取り除いたり、寄与を小さくできる

ex.Aが対角行列ならAjj要素の大きさを変えることで予測変数Xjの影響を変えることができる予測変数が多数あり、かつそれらの相関が強い時など

その他射影追跡回帰などは11章で

!!,! !! , ! = ! ! − !! !! ! − !!λ

Page 33: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰:構造化回帰関数

任意の相互作用が存在しうる回帰関数E(Y|X)=f(X1,X2,...,Xp)を当てはめることを試みる下記のような分散分析の形を分解を考えるこの中の高次の項を幾つか取り除くことで構造を導入ex.加法的モデルなら主要項だけを仮定し、2次のモデルの場合は高々2次の交互作用をもつ項を含むようにする等→9章で詳細

! !! ,!! ,… ,!! = α+ !! !!!

+ !!" !! ,!!!!!

+���

Page 34: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰:構造化回帰関数

これら構造化モデルの中でも係数変化モデルは特に重要な具体例

Xに含まれる予測変数をp個の集合(X1,X2,...Xq)(q<p)と残りの変数をベクトルZにまとめたものに分割したとする

このとき条件付き線形モデル

を仮定する

これは線形モデルだがそれぞれの係数はZによって異なっており、これを局所重み付き 小2乗法に当てはめるもの

! ! = α ! + β Z !! +���+ β! ! !!

min!(!!),!(!!)

!! !! , !! (!! − α !! − !!!β !!! −���− !!!β! !!! )!

!

!!!

Page 35: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰:構造化回帰関数(作図)

ElementsofStaRsRcalLearning(secondediRon):Fig.6.10HasRe,TibshiraniandFriedman(2009)

大動脈の直径データElemStatLearnpackageに含まれず?

Page 36: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰:構造化回帰関数(作図)

ElementsofStaRsRcalLearning(secondediRon):Fig.6.10HasRe,TibshiraniandFriedman(2009)

加齢とともに大動脈は太くなるが、性別や動脈の深度で長さが変わると予想し、男女でモデルを分けて作った

Page 37: 統計的学習の基礎6章前半 #カステラ本

多次元における構造化局所回帰:構造化回帰関数(作図)

ElementsofStaRsRcalLearning(secondediRon):Fig.6.10HasRe,TibshiraniandFriedman(2009)

確かに年齢とともに太くなっているが、その傾向は大動脈に沿った距離とともに弱まる

Page 38: 統計的学習の基礎6章前半 #カステラ本

まとめ

局所重み付き回帰だとに一手間加えたり、カーネル平滑化だとのDの中身を入れ替えることで色々調節できるよ

min!(!!),!(!!)

!! !! , !! [!! − α !! − β !! !!]!!

!!!

!! !! , ! = ! !− !!λ

Page 39: 統計的学習の基礎6章前半 #カステラ本

参考資料

ナダラヤ・ワトソン推定量を用いたノンパラメトリック回帰hhp://www.math.hc.keio.ac.jp/itoseminar/index.php?%B1%CA%B0%E6%A1%A6%A5%CE%A5%F3%A5%D1%A5%E9%A5%E1%A5%C8%A5%EA%A5%C3%A5%AF%B2%F3%B5%A2%A1%C1NW%BF%E4%C4%EA%CE%CC%A1%C1カーネル平滑化のメモhhp://entertainment-lab.blogspot.jp/2010/08/blog-post.htmlコンパクト性、開被覆hhp://d.hatena.ne.jp/Zellij/20120515/p1