tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

62
カーネル多変量解析 第2章 カーネル多変量解析の仕組み 里 洋平(@yokkuns) [email protected] 第45回TokyoR Copyright DATUM STUDIO Co., Ltd All Rights Reserved

Upload: yohei-sato

Post on 19-Jul-2015

5.019 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

カーネル多変量解析第2章  カーネル多変量解析の仕組み

里  洋平(@yokkuns)

[email protected]

第45回TokyoR  

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 2: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 カーネルで画像検索

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 3: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 過去のカーネルに関係する発表

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 4: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 過去のカーネルに関係する発表

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 5: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 【参考】カーネル多変量解析

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 6: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

Page 7: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

Page 8: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 里  洋平(@yokkuns)

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø  やってたことØ  Webアプリ開発Ø  統計解析/データマイニングØ  マーケティング

Page 9: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 TokyoR

R言語の東京コミュニティ  Tokyo.R  を主催

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 10: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 著書

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 11: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

Page 12: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 線形回帰モデル

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 13: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 線形回帰モデル

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 14: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 直線の関係になっていない場合

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 15: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 線形回帰では無理

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 16: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 線形回帰では無理

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

×

Page 17: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 大きく二つのアプローチ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

①  データ同士の「近さ」に着目した方法

②  データを何らかの関数で非線形変換する方法

Page 18: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 大きく二つのアプローチ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

①  データ同士の「近さ」に着目した方法

②  データを何らかの関数で非線形変換する方法

Page 19: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 データ同士の”近さ”に注目した考え方

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x

③⑦

Page 20: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 データ同士の”近さ”に注目した考え方

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x

③⑦

!?

Page 21: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 データ同士の”近さ”に注目した考え方

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x

③⑦

Page 22: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 ”近さ”の定義の例

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 23: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 ”近さ”の定義の例

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x③ ⑦

Page 24: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

これがカーネル関数

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 25: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 カーネルを使った回帰モデル

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x(j)とxの近さ

Page 26: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 カーネルを使った線形回帰

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データデータ同士の近さ

線形回帰

Page 27: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 パラメータの推定方法:最小二乗誤差

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

が最小になるようなパラメータを求める

実測値 モデルで算出した予測値

Page 28: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 Rで実行

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

Page 29: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 そのまま実行すると・・・

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 30: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 そのまま実行すると・・・

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

×

Page 31: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 正則化

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

が最小になるようなパラメータを求める

実測値 モデルで算出した予測値

ペナルティ

Page 32: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 Rで正則化(λ  =  0.01)

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

Page 33: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 正則化した実行結果(λ  =  0.01)

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 34: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 Rで正則化(λ  =  0,  0.0001,  0.01,  1)

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

Page 35: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 λを変えた時の様子

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

λ  =  0 λ  =  0.0001

λ  =  0.01 λ  =  1

Page 36: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 大きく二つのアプローチ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

①  データ同士の「近さ」に着目した方法

②  データを何らかの関数で非線形変換する方法

Page 37: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 非線形変換という考え方:例)多項式フィッティング

Page 38: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 非線形変換という考え方:例)多項式フィッティング

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 39: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 非線形変換という考え方:例)多項式フィッティング

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 40: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 パラメータの推定方法:最小二乗誤差

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

が最小になるようなパラメータを求める

実測値 モデルで算出した予測値

Page 41: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 多項式フィッティングとは結局のところ何か?

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データ 特徴ベクトル 線形回帰

Page 42: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

ところで

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 43: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 カーネル関数  =  データ同士の近さ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x③ ⑦

Page 44: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 データ(特徴ベクトル)同士の近さ  =  内積

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 45: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 つまり

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データデータ同士の近さ

線形回帰

Page 46: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 つまり

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データ 特徴ベクトルデータ同士の近さ=内積

線形回帰

入力データデータ同士の近さ

線形回帰

Page 47: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 カーネル法がやってることは

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

とある高次元空間

x③ ⑦

カーネル関数

特徴抽出

特徴ベクトル同士の近さ(=内積)の計算

Page 48: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 カーネル法がやってることは

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

とある高次元空間

x③ ⑦

カーネル関数

特徴抽出

特徴ベクトル同士の近さ(=内積)の計算

Page 49: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

これがカーネルトリック

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 50: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 最初の例:ガウスカーネル

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

Page 51: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 多項式カーネル

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

Page 52: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 Rで多項式カーネル

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

Page 53: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 多項式カーネルの実行結果

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Page 54: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 まとめ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

とある高次元空間

x③ ⑦

カーネル関数

特徴抽出

特徴ベクトル同士の近さ(=内積)の計算

Page 55: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

Page 56: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 参考:サンプル領域外での値

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

多項式カーネル ガウスカーネル

カーネルを使った回帰は、サンプル領域外に弱い

サンプル領域外では発散する サンプル領域外では0に近づく

Page 57: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 データをモデルを訓練データと検証データに分ける①

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

Page 58: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 データをモデルを訓練データと検証データに分ける②

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

Page 59: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 分けて何をするのか

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

Page 60: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 検証データで成績が良いハイパーパラメータを使う

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

Page 61: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

Page 62: Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

Enjoy!