-ssiiの技術マップ- 過去•現在, そして未来 [領域]認識

28
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 1 -SSIIの技術- 過去•現在, そして未来 領域認識 SSII2014:第20回画像センシングシンポジウム OS1:20周年記念特別セッション 2014年6月12日 藤吉 弘亘 中部大学工学部ロボット理工学科

Upload: hironobu-fujiyoshi

Post on 05-Dec-2014

3.881 views

Category:

Technology


3 download

DESCRIPTION

SSII2014:第20回画像センシングシンポジウム OS1:20周年記念特別セッション 2014年6月12日 SSII技術マップ: http://ssii.jp/special_map.html

TRANSCRIPT

Page 1: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 1

!!

-SSIIの技術- 過去•現在, そして未来 [領域]認識

!!

SSII2014:第20回画像センシングシンポジウム OS1:20周年記念特別セッション

!2014年6月12日

!藤吉 弘亘

中部大学工学部ロボット理工学科

Page 2: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 2

「認識」で取り扱う技術領域

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代

SVM(95)マージン最大化

SIFT(99)スケール不変特徴点検出・記述

SURF(06)積分画像アルゴリズムによる高速化

GPU SIFT(06)ハードウェアによる高速化

FAST(06)機械学習コーナー検出

BRIEF(10)学習無しランダムサンプリング

ORB(11)教師無し学習

D-BRIEF(12)教師あり学習

Bin-Boost(13)教師あり学習

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

Exemplar SVM(11)事例ベースの SVM

WTA Hashing(11)超高速化

HOG(05)勾配情報

HLAC(88)高次の自己相関 CHLAC(04)

HLACに時間軸の追加

Haar-like(01)boxフィルタ

DOT(10)勾配情報のテンプレートマッチング

VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Deep Learning(08)多層ニューラルネットワーク表現学習

超多クラス識別問題(10 万カテゴリ )

Crowdsourcing(13)人の知見の導入

詳細画像識別

ERT(06)RFのランダム性を最大化Fern(06)RFの分岐条件を階層で統一

texton(01)フィルタのバンク

人体パーツ識別

高速化 高精度化 アプリケーション

2000 2005 2010

物体検出 ( 多クラス ) 自己位置推定

マシンビジョン

画像検索

顔検出

人検出

特定物体認識

画像分類

特徴量の自動生成

人が注目した位置から特徴抽出

マーカ認識

二値特徴増分符号相関 (00)輝度の増減を二値で画像化

RRF(03)8 方向の濃度変化

疎テンプレートマッチング (05)2 種類のモデルの使い分け

固有分解テンプレートマッチング (11)回転変化に頑健な情報を利用

Co-Occurrence Template Matching(10)顕著性の高い画素で照合

Harris-Affine(02)アフィン不変特徴点検出

MSER(02)高速なアフィン不変点特徴

Object Bank(10)多クラスの要素を特徴量化

Relative attribute(11)実数による関連要素の表現

zero-shot transfer(09)関連要素から非学習クラスの検出

セマンティックセグメンテーション

CoHOG(09)HOGの共起表現

MLP(86)多層パーセブトロン

Online PA(06)入力サンプルに応じて重みベクトル更新

スパース特徴量 (06)Haar-like + ピクセル差分

グラスマン多様体 (08)線形部分空間の集合体

product quantization(11)サブベクトルによる量子化

スペクトル理論によるスケール探索 (12)特徴空間の射影

DAISY(08)記述空間の改良

BOF(04)特徴量の辞書化

直交制約相互空間法 (06)直交行列による空間の関係を直行化

カーネルトリック (00)特徴空間の射影

固有空間法 (96)2 次元画像による 3次元物体認識

相互部分空間 (85)部分空間同士の正準角

LBP(94)局所領域の二値化

CARD(11)特徴量を 2値化

Decision Jungles(13)パス共有による省メモリな決定木

制約相互部分空間法 (99)識別に有効な空間への射影

CNN(89)プーリングと畳み込みによる特徴抽出

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

Page 3: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 3

「認識」技術の製品化

SVM(95)マージン最大化

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

SIFT(99)スケール不変特徴点検出・記述

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

HLAC(88)高次の自己相関

CHLAC(04)HLACに時間軸の追加

Haar-like(01)boxフィルタ BOF(04)

特徴量の辞書化

texton(01)フィルタのバンク

道路監視システム ( 三菱 ,00)

OKAO vision( オムロン ,05)

SuperIPCam( 日立 ,08)

IMAP( ルネサスエレクトロニクス ,08)

CATENARY EYE( 明電舎 ,10)

Kinect(Microsoft,10)

Mobileye(08)

OpenCV(01)

ARToolKit(99)

Visconti2( 東芝 ,13)

転移学習 , 計量学習

CoHOG(09)HOGの共起表現

オブジェクト認識対応縦型スキャナ ( 東芝テック ,13)

スパース特徴量 (06)Haar-like + ピクセル差分

Picasa(02)

相互部分空間 (85)部分空間同士の正準角

FacePass(東芝 ,01)

エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06)

PCL(11)

顔検出 , 画像分類

HALCON(MVTec,96)VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Google Goggle(Google,09)Amazon A9(A9.com,04)

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代2000 2005 2010

製品

PatMax(Cognex,98)

Shape Trax( キーエンス ,05)形状サーチ ( オムロン ,11)DOT(10)

勾配情報のテンプレートマッチング

Page 4: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 4

「認識」で取り扱う技術領域

!!!!

!!!!

特徴点検出 特徴点記述

コーナー検出 スケール探索 アフィン不変 2値表現

分野 技術 動向

!!!!

・不変性の獲得 ・2値表現による高速化と省メモリ化 ・機械学習を導入して高速化を実現

!!!!

!!!!

!!!!

パターンマッチング 特徴抽出

画像局所特徴量 BOF表現

テンプレートマッチング 部分空間法

・局所ベースの特徴量 ・BOF表現を用いた辞書化 ・テンプレート画素の取捨選択 ・部分空間法の進展 !

!!!!!

!!!!!

!!!!!

統計的学習法 最近傍探索

統計的学習法 多クラス識別器 ハッシング 最近傍探索 計量学習

Deep Learning

・識別器の高性能化 ・ビッグデータに対するアプローチ ・超多クラス識別の高速化 ・学習外サンプルへの適応 ・特徴抽出の自動獲得

Page 5: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 5

「認識」で取り扱う技術領域

特徴点検出・記述の動向

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代

SIFT(99)スケール不変特徴点検出・記述

SURF(06)積分画像アルゴリズムによる高速化

GPU SIFT(06)ハードウェアによる高速化

FAST(06)機械学習コーナー検出

BRIEF(10)学習無しランダムサンプリング

ORB(11)教師無し学習

D-BRIEF(12)教師あり学習

Bin-Boost(13)教師あり学習

2000 2005 2010

画像検索

Harris-Affine(02)アフィン不変特徴点検出

MSER(02)高速なアフィン不変点特徴

スペクトル理論によるスケール探索 (12)特徴空間の射影

DAISY(08)記述空間の改良

CARD(11)特徴量を 2値化

DOT(10)勾配情報のテンプレートマッチング

二値特徴増分符号相関 (00)輝度の増減を二値で画像化

RRF(03)8 方向の濃度変化

疎テンプレートマッチング (05)2 種類のモデルの使い分け

HOG(05)勾配情報

HLAC(88)高次の自己相関 CHLAC(04)

HLACに時間軸の追加

Haar-like(01)boxフィルタ

VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Crowdsourcing(13)人の知見の導入

詳細画像識別texton(01)フィルタのバンク

マシンビジョン

顔検出

人検出

特定物体認識

画像分類

特徴量の自動生成

人が注目した位置から特徴抽出

マーカ認識

固有分解テンプレートマッチング (11)回転変化に頑健な情報を利用

Co-Occurrence Template Matching(10)顕著性の高い画素で照合

Object Bank(10)多クラスの要素を特徴量化

CoHOG(09)HOGの共起表現

スパース特徴量 (06)Haar-like + ピクセル差分

BOF(04)特徴量の辞書化

直交制約相互空間法 (06)直交行列による空間の関係を直行化

カーネルトリック (00)特徴空間の射影

固有空間法 (96)2 次元画像による 3次元物体認識

相互部分空間 (85)部分空間同士の正準角

LBP(94)局所領域の二値化

制約相互部分空間法 (99)識別に有効な空間への射影

SVM(95)マージン最大化

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

Exemplar SVM(11)事例ベースの SVM

WTA Hashing(11)超高速化

Deep Learning(08)多層ニューラルネットワーク表現学習

超多クラス識別問題(10 万カテゴリ )

ERT(06)RFのランダム性を最大化Fern(06)RFの分岐条件を階層で統一

人体パーツ識別物体検出 ( 多クラス ) 自己位置推定

Relative attribute(11)実数による関連要素の表現

zero-shot transfer(09)関連要素から非学習クラスの検出

セマンティックセグメンテーション

MLP(86)多層パーセブトロン

Online PA(06)入力サンプルに応じて重みベクトル更新

グラスマン多様体 (08)線形部分空間の集合体

product quantization(11)サブベクトルによる量子化

Decision Jungles(13)パス共有による省メモリな決定木

CNN(89)プーリングと畳み込みによる特徴抽出

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

Page 6: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004] ‒ スケール・回転に不変な特徴点検出・記述

6

特徴点検出・記述

ポイント  -DOG(Difference of Gaussian)によるキーポイント検出  -勾配方向ヒストグラムによる特徴記述

DoG画像平滑化画像

σ 0

kσ 0

k 2σ 0

スケール

k 3σ 0

k⁴σ₀ -

-

-

-

Page 7: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 7

特徴点検出の高速化

スケールスペースの高速化

決定木による高速化

・SURF (06) 積分画像を用いた近似ヘッセ行列による高速なキーポイント検出

・FAST (06) 機械学習(決定木)を導入してコーナー検出を高速化

・スペクトル理論 (12) スペクトル理論によるスケール探索の高速化と高精度化

Page 8: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004] ‒ スケール・回転に不変な特徴点検出・記述

8

特徴点検出・記述

ポイント  -DOG(Difference of Gaussian)によるキーポイント検出  -勾配方向ヒストグラムによる特徴記述

4分割

4分割

8方向

ガウス窓

Page 9: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 9

特徴点記述の高速化

2値特徴量の導入

・BRIEF(10),ORB(11), CARD(11) 距離計算を考慮した2値による特徴記述

・D-BRIEF(12), Bin-Boost(13) 教師あり学習による最適な2値パターンの獲得

ポイント  -特徴料を2値にすることで距離計算(ハミング距離)を高速化、SSEの利用  -省メモリ化も同時に実現

ポジティブサンプル ネガティブサンプル

ORBの参照ペア D-BRIEFにおける教師あり学習

Page 10: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 10

「認識」で取り扱う技術領域

セマンティックセグメンテーション

RRF(03)8 方向の濃度変化

疎テンプレートマッチング (05)2 種類のモデルの使い分け

HLAC(88)高次の自己相関

増分符号相関 (00)輝度の増減を二値で画像化

カーネルトリック (00)特徴空間の射影

固有空間法 (96)2 次元画像による 3次元物体認識

相互部分空間 (85)部分空間同士の正準角

LBP(94)局所領域の二値化

SIFT(99)スケール不変特徴点検出・記述

SURF(06)積分画像アルゴリズムによる高速化

GPU SIFT(06)ハードウェアによる高速化

FAST(06)機械学習コーナー検出

BRIEF(10)学習無しランダムサンプリング

ORB(11)教師無し学習

D-BRIEF(12)教師あり学習

Bin-Boost(13)教師あり学習画像検索

Harris-Affine(02)アフィン不変特徴点検出

MSER(02)高速なアフィン不変点特徴

スペクトル理論によるスケール探索 (12)特徴空間の射影

DAISY(08)記述空間の改良

DOT(10)勾配情報のテンプレートマッチング

VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Crowdsourcing(13)人の知見の導入

詳細画像識別

マシンビジョン

特定物体認識

特徴量の自動生成

人が注目した位置から特徴抽出

マーカ認識

二値特徴

固有分解テンプレートマッチング (11)回転変化に頑健な情報を利用

Co-Occurrence Template Matching(10)顕著性の高い画素で照合

Object Bank(10)多クラスの要素を特徴量化

CoHOG(09)HOGの共起表現

Online PA(06)入力サンプルに応じて重みベクトル更新

Exemplar SVM(11)事例ベースの SVM

Deep Learning(08)多層ニューラルネットワーク表現学習

物体検出 ( 多クラス ) 自己位置推定

Relative attribute(11)実数による関連要素の表現

zero-shot transfer(09)関連要素から非学習クラスの検出

グラスマン多様体 (08)線形部分空間の集合体

product quantization(11)サブベクトルによる量子化

WTA Hashing(11)超高速化 超多クラス識別問題

(10 万カテゴリ )

ERT(06)RFのランダム性を最大化Fern(06)RFの分岐条件を階層で統一

Decision Jungles(13)パス共有による省メモリな決定木

MLP(86)多層パーセブトロン

CNN(89)プーリングと畳み込みによる特徴抽出

直交制約相互空間法 (06)直交行列による空間の関係を直行化

制約相互部分空間法 (99)識別に有効な空間への射影

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代

SVM(95)マージン最大化

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

HOG(05)勾配情報

Haar-like(01)boxフィルタ

texton(01)フィルタのバンク

人体パーツ識別

2000 2005 2010

顔検出

人検出

画像分類

スパース特徴量 (06)Haar-like + ピクセル差分

BOF(04)特徴量の辞書化

CHLAC(04)HLACに時間軸の追加

CARD(11)特徴量を 2値化

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

局所特徴量・統計的学習法の動向

Page 11: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 11

特徴抽出と統計的学習法

局所画像特徴量と統計的学習法・ 顔検出→Haar-like(01), スパース特徴(06)+AdaBoost(95)

・歩行者検出→HOG(05)+SVM(95)

ポイント  -問題設定に合わせて特徴量(Hand-crafted feature)を設計  -2クラス問題から多クラス問題へ

・人体パーツ識別→Random Forest(01)

・ 画像分類→SIFT(01), BOF(04)+SVM(95)

Page 12: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• A Discriminatively Trained, Multiscale, Deformable Part Model [Felzenszwalb2008] ‒ Latent SVMを用いたパーツベースの物体検出

12

DPM:パーツベースの物体検出

ポイント  -物体をパーツの集合として表現(Deformable Parts Model)  -パーツの位置関係を考慮することで姿勢変動に対応

ルートフィルタ パーツフィルタパーツフィルタの 位置関係

Page 13: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013] ‒ 10万種類の物体を20秒以下で検出

13

バイナリコードを用いたHashによる10万種類の物体検出

Locality-sensitive Hashing with WTA

WTA codeをP個に分割 P個のコードそれぞれのHashテーブルを参照

クラス毎の スコアヒストグラムを作成

各クラスのフィルタ応答マップを作る

HOG特徴量

111101010011WAT code

ポイント  -多クラスDPMの高速化  -パーツの集合に対して、WTA Hashを利用して超多クラスの検出を実現

Page 14: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 14

バイナリコードを用いたHashによる10万種類の物体検出

• Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013] ‒ 10万種類の物体を20秒以下で検出

Page 15: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 15

「認識」で取り扱う技術領域

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代

HOG(05)勾配情報

Deep Learning(08)多層ニューラルネットワーク表現学習

Crowdsourcing(13)人の知見の導入

詳細画像識別

2000 2005 2010

人検出

画像分類

人が注目した位置から特徴抽出

マーカ認識

BOF(04)特徴量の辞書化

直交制約相互空間法 (06)直交行列による空間の関係を直行化

VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

特定物体認識

Object Bank(10)多クラスの要素を特徴量化

CoHOG(09)HOGの共起表現

スパース特徴量 (06)Haar-like + ピクセル差分

制約相互部分空間法 (99)識別に有効な空間への射影

Haar-like(01)boxフィルタ

顔検出カーネルトリック (00)特徴空間の射影

固有空間法 (96)2 次元画像による 3次元物体認識

相互部分空間 (85)部分空間同士の正準角

SIFT(99)スケール不変特徴点検出・記述

SURF(06)積分画像アルゴリズムによる高速化

GPU SIFT(06)ハードウェアによる高速化

FAST(06)機械学習コーナー検出

BRIEF(10)学習無しランダムサンプリング

ORB(11)教師無し学習

D-BRIEF(12)教師あり学習

Bin-Boost(13)教師あり学習画像検索

Harris-Affine(02)アフィン不変特徴点検出

MSER(02)高速なアフィン不変点特徴

スペクトル理論によるスケール探索 (12)特徴空間の射影

DAISY(08)記述空間の改良

HLAC(88)高次の自己相関 CHLAC(04)

HLACに時間軸の追加

DOT(10)勾配情報のテンプレートマッチング

texton(01)フィルタのバンク

マシンビジョン二値特徴

増分符号相関 (00)輝度の増減を二値で画像化

RRF(03)8 方向の濃度変化

疎テンプレートマッチング (05)2 種類のモデルの使い分け

固有分解テンプレートマッチング (11)回転変化に頑健な情報を利用

Co-Occurrence Template Matching(10)顕著性の高い画素で照合

LBP(94)局所領域の二値化

CARD(11)特徴量を 2値化

CNN(89)プーリングと畳み込みによる特徴抽出

SVM(95)マージン最大化

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

Exemplar SVM(11)事例ベースの SVM

WTA Hashing(11)超高速化 超多クラス識別問題

(10 万カテゴリ )

ERT(06)RFのランダム性を最大化Fern(06)RFの分岐条件を階層で統一

人体パーツ識別物体検出 ( 多クラス ) 自己位置推定

Relative attribute(11)実数による関連要素の表現

zero-shot transfer(09)関連要素から非学習クラスの検出

セマンティックセグメンテーション

MLP(86)多層パーセブトロン

Online PA(06)入力サンプルに応じて重みベクトル更新

グラスマン多様体 (08)線形部分空間の集合体

product quantization(11)サブベクトルによる量子化

Decision Jungles(13)パス共有による省メモリな決定木

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

特徴量の自動生成 近年の動向

人の知見の導入

特徴抽出の自動化

Page 16: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 16

Deep Learningによる特徴抽出と識別器の自動獲得

ポイント  -畳み込みニューラルネットワークの学習にスパースコーディングを利用  -各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出

特徴抽出部 識別部

• Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013] ‒ 畳み込みNNを用いて人検出の性能を大幅に向上

Page 17: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013] ‒ 畳み込みNNを用いて人検出の性能を大幅に向上

17

Deep Learningによる特徴抽出と識別器の自動獲得

ポイント  -畳み込みニューラルネットワークの学習にスパースコーディングを利用  -各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出

畳み込み層のフィルタ例 (INRIAデータセット,フィルタサイズ:9x9)

検出性能→特徴抽出過程の自動獲得

Page 18: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• Fine-Grained Crowdsourcing for Fine-Grained Recognition [Deng2013] ‒ 人が注目した領域から特徴量を記述

18

人の知見を利用した特徴抽出

Crowdsourcingにより 多くの経験を獲得

高スコア時の選択領域から特徴抽出カラー画像化する面積が 小さいほど高スコア 識別に容易な領域が

選択されているゲームで高スコア =

ポイント  -人が識別に容易な領域を選択することで細かな違いを識別  -Crowdsourcingを利用して大量の経験データを獲得する

ゲーム形式で正誤判定に使用した領域を選択

クリックした座標周辺が ブラー画像からカラー画像へ

Page 19: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 19

「認識」の5年後

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代

SVM(95)マージン最大化

SIFT(99)スケール不変特徴点検出・記述

SURF(06)積分画像アルゴリズムによる高速化

GPU SIFT(06)ハードウェアによる高速化

FAST(06)機械学習コーナー検出

BRIEF(10)学習無しランダムサンプリング

ORB(11)教師無し学習

D-BRIEF(12)教師あり学習

Bin-Boost(13)教師あり学習

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

Exemplar SVM(11)事例ベースの SVM

WTA Hashing(11)超高速化

HOG(05)勾配情報

HLAC(88)高次の自己相関 CHLAC(04)

HLACに時間軸の追加

Haar-like(01)boxフィルタ

DOT(10)勾配情報のテンプレートマッチング

VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Deep Learning(08)多層ニューラルネットワーク表現学習

超多クラス識別問題(10 万カテゴリ )

Crowdsourcing(13)人の知見の導入

詳細画像識別

処理レベル

ERT(06)RFのランダム性を最大化Fern(06)RFの分岐条件を階層で統一

5年後

texton(01)フィルタのバンク

人体パーツ識別

高速化 高精度化 アプリケーション

2000 2005 2010

物体検出 ( 多クラス ) 自己位置推定

マシンビジョン

画像検索

顔検出

人検出

特定物体認識

画像分類

特徴量の自動生成

人が注目した位置から特徴抽出

マーカ認識

二値特徴

人とのハイブリッドによる官能検査、欠陥検出

増分符号相関 (00)輝度の増減を二値で画像化

RRF(03)8 方向の濃度変化

疎テンプレートマッチング (05)2 種類のモデルの使い分け

固有分解テンプレートマッチング (11)回転変化に頑健な情報を利用

Co-Occurrence Template Matching(10)顕著性の高い画素で照合

高速多クラス識別

Harris-Affine(02)アフィン不変特徴点検出

MSER(02)高速なアフィン不変点特徴

Object Bank(10)多クラスの要素を特徴量化

Relative attribute(11)実数による関連要素の表現

zero-shot transfer(09)関連要素から非学習クラスの検出

zero-shot learningによる学習外サンプルへの適応

転移学習 , 計量学習

生態調査

セマンティックセグメンテーション

CoHOG(09)HOGの共起表現

MLP(86)多層パーセブトロン

Online PA(06)入力サンプルに応じて重みベクトル更新

スパース特徴量 (06)Haar-like + ピクセル差分

詳細画像記述

グラスマン多様体 (08)線形部分空間の集合体

product quantization(11)サブベクトルによる量子化

スペクトル理論によるスケール探索 (12)特徴空間の射影

不変性の獲得

DAISY(08)記述空間の改良

BOF(04)特徴量の辞書化

大規模顔認識Deep Neural Networkの

高速化直交制約相互空間法 (06)直交行列による空間の関係を直行化

カーネルトリック (00)特徴空間の射影

固有空間法 (96)2 次元画像による 3次元物体認識

相互部分空間 (85)部分空間同士の正準角

LBP(94)局所領域の二値化

CARD(11)特徴量を 2値化

Decision Jungles(13)パス共有による省メモリな決定木

制約相互部分空間法 (99)識別に有効な空間への射影

CNN(89)プーリングと畳み込みによる特徴抽出

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

セマンティック映像圧縮

Page 20: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• 高速多クラス識別 ‒ WTA Hashingによる10万カテゴリ識別の高速化

• 詳細画像記述 ‒ 10万カテゴリ識別+関連要素による学習外サンプルのラベル導出

• zero-shot learningによる学習外サンプルへの適応 ‒ 関連要素による学習外サンプルのラベル導出+転移学習、計量学習

• 大規模顔認識 ‒ Deep Neural Networkの高速化

• 人と機械のハイブリッドによる官能検査、欠陥検出 ‒ 人の知見を導入した詳細画像識別

• キーポイントにおける不変性の獲得 ‒ スケール探索、アフィン変化への対応

20

「認識」の5年後

Page 21: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

Deep Learningに代表される深い階層的構造の学習・識別手法の理論的解析と解析に基づく階層構造の設計論に焦点があたり,この結果をもとにweb上に存在する統制のとれた一般的物体の画像であればほぼ間違いなく認識可能となる.その一方で,より実世界寄りの雑然とした状況における認識へ注力され,また,チャレンジングな課題へ広がりを見せる.!!○今後広がりを見せるであろう課題!!・ライフログ等の動画像の要約,自然言語分野との融合!ウェアラブル機器の浸透と共に,時系列データを有効に活用する動画像の要約技術が進展する.時系列情報を活用した前後の文脈理解による認識精度の向上のみならず,人の感性に合致した興味深いショット推定や,自然言語分野で培われた文法的知識体系等がビジョン技術と融合して従来難問とされていた動画像要約のへの糸口となる.!!・コンテンツ生成,グラフィクス系分野との融合!画像認識とは数百万ピクセルの情報を1つのカテゴリに押し込める究極の情報圧縮技術といえる.今後は,グラフィクス系分野の融合により,圧縮された情報から逆に実世界の情報へ復元するコンテンツ生成技術が進展する.これにより長い文章情報理解せずとも図を一枚見ることによって瞬時に内容を理解可能な情報提示技術への糸口となる.!!・ロボットビジョン,ロボティクス(制御)との融合!統制のとれた認識対象を提示するのであれば十分高い識別性能が実現される一方で,認識対象をあらかじめ定めず,雑然とした画像が入力状況においては従来の一般的物体認識手法の枠組みでは認識精度が悪く使える技術としてほど遠い.ロボットの持つ身体を活用することで,認識すべき対象を発見する注視機能の活用とロボットの制御技術の融合により,実世界における真の意味での能動的認識,学習機能が発展する.!!・プライバシアウェアな画像認識技術の流れ!今後ウェアラブル機器の発展が見込まれているが,画像センサを利用した場合にプライバシを侵害する画像が意図せず取得され,webで共有される危険性をはらみ,画像センサを持つウェアラブル機器の拡充の妨げとなる.この背景のもと画像に映る物体の種別等のコンテンツが十分に理解可能でありながら,プライバシ情報をすべて隠ぺいする技術が発展する.ウェアラブルシステム等で獲得した画像,映像をクラウドソーシングなどを利用して,ラベル付与を行うことや,webでの共有,画像を見ながらの遠隔操作などには必要不可欠な技術となる.荒く,雑然とした情報でも可能とする.

21

5年後の画像認識のトレンド:原田達也先生(東大)

Page 22: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 22

5年後の画像認識のトレンド:Prof. Tae-kyun Kim(Imperial College London)

• Combined of RF and Deep learning ‒ Random ForestとDeep Learningの融合 ‒ 例:Decision Forest [Shotton2013] !!!!• Long-term continuous learning ‒ never-ending image learning ‒ 終わりのない画像学習フレームワークの実現

(a) (b)

Figure 1: Motivation and notation. (a) An example use of a rooted decision DAG for classifyingimage patches as belonging to grass, cow or sheep classes. Using DAGs instead of trees reduces thenumber of nodes and can result in better generalization. For example, differently coloured patchesof grass (yellow and green) are merged together into node 4, because of similar class statistics. Thismay encourage generalization by representing the fact that grass may appear as a mix of yellow andgreen. (b) Notation for a DAG, its nodes, features and branches. See text for details.

input instance that reaches that node should progress through the left or right branch emanating fromthe node. Prediction in binary decision trees involves every input starting at the root and movingdown as dictated by the split functions encountered at the split nodes. Prediction concludes whenthe instance reaches a leaf node, each of which contains a unique prediction. For classification trees,this prediction is a normalized histogram over class labels.

Rooted binary decision DAGs. Rooted binary DAGs have a different architecture compared todecision trees and were introduced by Platt et al. [26] as a way of combining binary classifier formulti-class classification tasks. More specifically a rooted binary DAG has: (i) one root node, within-degree 0; (ii) multiple split nodes, with in-degree � 1 and out-degree 2; (iii) multiple leaf nodes,with in-degree � 1 and out-degree 0. Note that in contrast to [26], if we have a C-class classificationproblem, here we do not necessarily expect to have C DAG leaves. In fact, the leaf nodes are notnecessarily pure; And each leaf remains associated with an empirical class distribution.

Classification DAGs vs classification trees. We explain the relationship between decision trees anddecision DAGs using the image classification task illustrated in Fig. 1(a) as an example. We wishto classify image patches into the classes: cow, sheep or grass. A labelled set of patches is used totrain a DAG. Since patches corresponding to different classes may have different average intensity,the root node may decide to split them according to this feature. Similarly, the two child nodes maydecide to split the patches further based on their chromaticity. This results in grass patches withdifferent intensity and chromaticity (bright yellow and dark green) ending up in different subtrees.However, if we detect that two such nodes are associated with similar class distributions (peakedaround grass in this case) and merge them, then we get a single node with training examples fromboth grass types. This helps capture the degree of variability intrinsic to the training data, and reducethe classifier complexity. While this is clearly a toy example, we hope it gives some intuition as towhy rooted DAGs are expected to achieve the improved generalization demonstrated in Section 4.

3 Learning Decision Jungles

We train each rooted decision DAG in a jungle independently, though there is scope for mergingacross DAGs as future work. Our method for training DAGs works by growing the DAG one levelat a time.1 At each level, the algorithm jointly learns the features and branching structure of thenodes. This is done by minimizing an objective function defined over the predictions made by thechild nodes emanating from the nodes whose split features are being learned.

Consider the set of nodes at two consecutive levels of the decision DAG (as shown in Fig. 1b). Thisset consist of the set of parent nodes N

p

and a set of child nodes Nc

. We assume in this work a knownvalue for M = |N

c

|. M is a parameter of our method and may vary per level. Let ✓i denote theparameters of the split feature function f for parent node i 2 N

p

, and Si denote the set of labelledtraining instances (x, y) that reach node i. Given ✓i and Si, we can compute the set of instancesfrom node i that travel through its left and right branches as SL

i (✓i) = {(x, y) 2 Si | f(✓i, x) 0}1Jointly training all levels of the tree simultaneously remains an expensive operation [15].

3

2分木をネットワーク状に接続 省メモリ化とオーバーフィッティングを回避決

Page 23: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 23

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代

SVM(95)マージン最大化

SIFT(99)スケール不変特徴点検出・記述

SURF(06)積分画像アルゴリズムによる高速化

GPU SIFT(06)ハードウェアによる高速化

FAST(06)機械学習コーナー検出

BRIEF(10)学習無しランダムサンプリング

ORB(11)教師無し学習

D-BRIEF(12)教師あり学習

Bin-Boost(13)教師あり学習

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

Exemplar SVM(11)事例ベースの SVM

WTA Hashing(11)超高速化

HOG(05)勾配情報

HLAC(88)高次の自己相関 CHLAC(04)

HLACに時間軸の追加

Haar-like(01)boxフィルタ

DOT(10)勾配情報のテンプレートマッチング

VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Deep Learning(08)多層ニューラルネットワーク表現学習

超多クラス識別問題(10 万カテゴリ )

Crowdsourcing(13)人の知見の導入

詳細画像識別

処理レベル

ERT(06)RFのランダム性を最大化Fern(06)RFの分岐条件を階層で統一

5年後

texton(01)フィルタのバンク

人体パーツ識別

高速化 高精度化 アプリケーション

2000 2005 2010

物体検出 ( 多クラス ) 自己位置推定

マシンビジョン

画像検索

顔検出

人検出

特定物体認識

画像分類

特徴量の自動生成

人が注目した位置から特徴抽出

マーカ認識

二値特徴

人とのハイブリッドによる官能検査、欠陥検出

増分符号相関 (00)輝度の増減を二値で画像化

RRF(03)8 方向の濃度変化

疎テンプレートマッチング (05)2 種類のモデルの使い分け

固有分解テンプレートマッチング (11)回転変化に頑健な情報を利用

Co-Occurrence Template Matching(10)顕著性の高い画素で照合

高速多クラス識別

Harris-Affine(02)アフィン不変特徴点検出

MSER(02)高速なアフィン不変点特徴

Object Bank(10)多クラスの要素を特徴量化

Relative attribute(11)実数による関連要素の表現

zero-shot transfer(09)関連要素から非学習クラスの検出

zero-shot learningによる学習外サンプルへの適応

転移学習 , 計量学習

生態調査

セマンティックセグメンテーション

CoHOG(09)HOGの共起表現

MLP(86)多層パーセブトロン

Online PA(06)入力サンプルに応じて重みベクトル更新

スパース特徴量 (06)Haar-like + ピクセル差分

詳細画像記述

グラスマン多様体 (08)線形部分空間の集合体

product quantization(11)サブベクトルによる量子化

スペクトル理論によるスケール探索 (12)特徴空間の射影

不変性の獲得

DAISY(08)記述空間の改良

BOF(04)特徴量の辞書化

大規模顔認識Deep Neural Networkの

高速化直交制約相互空間法 (06)直交行列による空間の関係を直行化

カーネルトリック (00)特徴空間の射影

固有空間法 (96)2 次元画像による 3次元物体認識

相互部分空間 (85)部分空間同士の正準角

LBP(94)局所領域の二値化

CARD(11)特徴量を 2値化

Decision Jungles(13)パス共有による省メモリな決定木

制約相互部分空間法 (99)識別に有効な空間への射影

Pentium3(99) Pentium4(00) Xeon5100Intel Core2

Core i 7(11)CPU (06) Core i 5(09)Core i 3(10)

SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11)

GPUGeForce2(00)

GeForce3(01)GeForce4,FX(02) GeForce6(04)

GeForce7(05) GeForce8(06)GeForce9(08)GeForce200(08)

GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07)

R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13)

2014/06/09版

CNN(89)プーリングと畳み込みによる特徴抽出

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

セマンティック映像圧縮

SVM(95)マージン最大化

AdaBoost(95)アンサンブル学習サンプル重みの逐次更新

SIFT(99)スケール不変特徴点検出・記述

Random Forests(01)アンサンブル学習+ランダム学習

DPM(08)モデルの分割(latent SVMによる識別 )

HLAC(88)高次の自己相関

CHLAC(04)HLACに時間軸の追加

Haar-like(01)boxフィルタ

BOF(04)特徴量の辞書化

texton(01)フィルタのバンク

道路監視システム ( 三菱 ,00)

OKAO vision( オムロン ,05)

SuperIPCam( 日立 ,08)

IMAP( ルネサスエレクトロニクス ,08)

CATENARY EYE( 明電舎 ,10)

Kinect(Microsoft,10)

Mobileye(08)

OpenCV(01)

ARToolKit(99)

Visconti2( 東芝 ,13)

転移学習 , 計量学習

CoHOG(09)HOGの共起表現

オブジェクト認識対応縦型スキャナ ( 東芝テック ,13)

スパース特徴量 (06)Haar-like + ピクセル差分

Picasa(02)

相互部分空間 (85)部分空間同士の正準角

FacePass(東芝 ,01)

エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06)

PCL(11)

顔検出 , 画像分類

HALCON(MVTec,96)VLAD(10)関連するVWの特徴量を使用

Fisher Vector(07)確率密度関数による特徴量の表現

Google Goggle(Google,09)Amazon A9(A9.com,04)

特徴抽出

パターンマッチング

特徴点検出・記述

統計的学習法

最近傍探索

年代2000 2005 2010

製品

Pentium3(99) Pentium4(00) Xeon5100Intel Core2

Core i 7(11)CPU (06) Core i 5(09)Core i 3(10)

SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11)

GPUGeForce2(00)

GeForce3(01)GeForce4,FX(02) GeForce6(04)

GeForce7(05) GeForce8(06)GeForce9(08)GeForce200(08)

GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07)

R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13)

処理レベル

2014/06/09版

PatMax(Cognex,98)

Shape Trax( キーエンス ,05)形状サーチ ( オムロン ,11)DOT(10)

勾配情報のテンプレートマッチング

SSII技術マップは今後も更新していく予定です。 コメントや画像処認識技術の製品化例についても幅広く情報提供をお待ちしております。 送付先:[email protected](藤吉)

http://www.ssii.jp/special_map.html

Page 24: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• D. G. Lowe, “Distinctive image features from scale-invariant keypoints”, IJCV, Vol.60, No.2, pp.91-110, 2004. • J. Matas, O. Chum, M. Urban, T. Pajdla, “Robust wide baseline stereo from maximally stable extremal regions.”, BMVC, pp.384-396, 2002.

• K. Mikolajczyk, C. Schmid, “Scale & affine invariant interest point detectors. International journal of computer vision, Vol.60, No.1, pp.63-86, 2004.

• S. N. Sinha, J. Frahm, M. Pollefeys, Y. Genc, “GPU-based Video Feature Tracking And Matching”, Workshop on Edge Computing Using New Commodity Architectures, 2006.

• H. Bay, T. Tuytelaars, L. Van Gool, “SURF: Speeded Up Robust. Features”, ECCV , pp.404-417, 2006. • E. Rosten, R. Porter, T. Drummond, “Faster and Better: A Machine Learning Approach To Corner Detection”, PAMI, pp.105-119, 2010.

• M. Ozuysal, M. Calonder, V. Lepetit, P. Fua, “Fast keypoint recognition using random ferns”, PAMI, Vol.32, pp.448-461, 2010.

• M. Calonder, V. Lepetit, C. Strecha, P. Fua, “BRIEF: Binary Robust Independent Elementary Features”, ECCV, pp.778-792, 2010.

• E.Rublee, V.Rabaud, K.Konolige, G.Bradski “ORB: an efficient alternative to SIFT or SURF”, ICCV, 2011. • M. Ambai, Y. Yoshida, “CARD: Compact And Real-time Descriptors”, ICCV, 2011. • 上瀧剛, 内村圭一、“スペクトル理論のパターンマッチングへの応用”,第17回画像の認識・理解シンポジウム, 2012. • T. Tomasz, L. Vincent, “Efficient Discriminative Projections for Compact Binary Descriptors”, ECCV, pp.228‒242, 2012.

• T. Tomasz, M. Christoudias, P. Fua, V. Lepetit, “Boosting Binary Keypoint Descriptors”,CVPR, 2013.

24

参考文献(特徴点検出・記述)

Page 25: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• 前田賢一, 渡辺貞一, “局所構造を導入したパターン・マッチング法”, 信学論D, Vol. J68, pp345-352, 1985. • H. Murase, S. K. Nayar, “Illumination planning for object recognition using parametric eigenspace,” PAMI, Vol. 16, pp.1219-1227, 1994

• T. Ojala, M. Pietikainen, T. Maenpaa, “Multiresolution gray-scale and rotation invariant texture classification with local binary patterns”, PAMI, Vol.24, pp.971-987, 2002.

• 福井 和広, 山口 修, 鈴木 薫, 前田 賢一, “制約相互部分空間法を用いた環境変動にロバストな顔画像認識 ‒照明変動の影響を抑える制約相互部分空間の学習‒“, 信学論 D-II Vol. J82, pp.613-620, 1999.

• N. Cristianini, J. Shawe-Taylor, “An introduction to support vector machines and other kernel-based learning methods”, Cambridge university press, 2000.

• P. Viola, M. Jones, “Rapid object detection using a boosted cascade of simple features”, CVPR, vol.1,pp.511-518, 2001.

• 佐藤雄隆, 金子俊一, 丹羽義典, 山本和彦, “Radial Reach Filter (RRF) によるロバストな物体検出 (画像処理, 画像パターン認識)” 信学論.D-II, Vol. J86, pp.616-624, 2003.

• G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray, “Visual Categorization with Bags of Keypoints”, ECCV, Vol. 1, pp. 1-2, 2004.

• T. Kobayashi, N. Otsu, “Action and Simultaneous Multiple-Person Identification Using Cubic Higher Order Local Auto-Correlation”, ICPR, Vol. 4, pp.741-744, 2004

• N. Dalal, B. Triggs, “Histograms of Oriented Gradients for Human Detection”, CVPR, pp.886-893, 2005.

25

参考文献(特徴抽出・パターンマッチング)

Page 26: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• 松原康晴, 尺長健, “疎テンプレートマッチングとその実時間物体追跡への応用”, 情報処理学会論文誌. CVIM, Vol. 46, pp.60-71, 2005.

• 河原 智一, 西山 正志, 山口 修, “直交相互部分空間法を用いた顔 認識,”, CVIM, pp.17-24, 2005. • C. Huang, H. Ai, Y. Li, S. Lao, “Learning sparse features in granular space for multi-view face detection”, FG, 2006.

• F. Perronnin, C. Dance, “Fisher kernels on visual vocabularies for image categorization”, CVPR, 2007. • T. Watanabe, S. Ito, K. Yokoi, “Co-occurrence histograms of oriented gradients for pedestrian detection”, In Advances in Image and Video Technology, pp. 37-47, 2009.

• H. Jegou, M. Douze, C. Schmid, P. Perez. “Aggregating local descriptors into a compact image representation”, CVPR, 2010.

• L. J. Li, H. Su, E. P. Xing, F. Li, “Object Bank: A High-Level Image Representation for Scene Classification & Semantic Feature Sparsification”, NIPS, Vol. 2, p.5, 2010.

• M. Hashimoto, T. Fujiwara, H. Koshimizu, H. Okuda, K. Sumi, “Extraction of Unique Pixels based on Co-occurrence Probability for High- speed Template Matching”, Proceeding of International Symposium on Optomechatronic Technologies, MVI-3, 2010.

• S. Hinterstoisser, V. Lepetit, S. Ilic, P. Fua, N. Navab, “Dominant Orientation Templates for Real-Time Detection of Texture-Less Objects”, CVPR, pp.2257-2264, 2010.

• 上瀧剛, 内村圭一, “明るさ変動および雑音に頑健な固有値分解テンプレート法”, 電気学会論文誌C, Vol.131, No.9, pp.1625‒1632, 2011.

• J. Deng, J. Krause, F. Li, “Fine-grained crowdsourcing for fine-grained recognition.CVPR, pp. 580-587, 2013.

26

参考文献(特徴抽出・パターンマッチング)

Page 27: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• D. E. Rumelhart, G. E. Hinton, R. J. Williams. “Learning Internal Representations by Error Propagation”, Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundations. MIT Press, 1986.

• C. Cortes, V. Vapnik, “Support vector machine”, Machine learning, Vol.20, No.3, 273-297, 1995. • Y, Freund, R, E. Schapire, “A decisiontheoretic generalization of on-line learning and an application to boosting”, Journal of Computer and System Sciences, No. 1, Vol. 55, pp. 119-139, 1997.

• L. Breiman, “Random Forests.”, Machine Learning 45 (1): 5-32, 2001. • P. Geurts, D. Ernst, L. Wehenkel, “Extremely randomized trees”, Machine learning, Vol.63, No.1, pp.3-42, 2006. • K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz, Y. Singer, “Online passive-aggressive algorithms”. The Journal of Machine Learning Research, pp.551-585, 2006.

• M. Ozuysal, P. Fua, V. Lepetit, “Fast keypoint recognition in ten lines of code”. ICPR, pp.1-8, 2007. • P. Felzenszwalb, D. McAllester, D. Ramanan, “A discriminatively trained, multiscale, deformable part model”, CVPR, pp.1-8, 2008.

• J. Hamm, D. D. Lee, “Grassmann discriminant analysis: a unifying view on subspace-based learning”, ICML, pp.376-383, 2008.

• R. Collobert, J. Weston, “A unified architecture for natural language processing: Deep neural networks with multitask learning”, ICML, pp.160-167, 2008.

• C. H. Lampert, H. Nickisch, S. Harmeling, “Learning To Detect Unseen Object Classes by Between-ClassAttributeTransfer”, CVPR, 2009.

• T. Malisiewicz, A. Gupta, A. A. Efros, “Ensemble of exemplar-svms for object detection and beyond”, ICCV, pp.89-96, 2011.

27

参考文献(統計的学習法・最近傍探索)

Page 28: -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘

• H. Jegou, M. Douze, C. Schmid, “Product quantization for nearest neighbor search”, PAMI, Vol.33, pp117-128, 2011.

• D. Parikh, K. Grauman, “Relative attributes”, ICCV, pp. 503-510, 2011.

• J. Shotton, T. Sharp, P. Kohli, S. Nowozin, J. Winn, A. Criminisi, “Decision Jungles: Compact and Rich Models for Classification”, NIPS, pp.234-242, 2013.

28

参考文献(統計的学習法・最近傍探索)