eccv 2016 速報
TRANSCRIPT
ECCV2016速報 – 2016後半の流れ–
片岡裕雄 http://www.hirokatsukataoka.net/
概要
• CV分野の会議トップ3*と言われるECCV2016 – CVPR2016速報からの続編
– ECCV2016に参加した最近の気づきをまとめました
– 前提としてCVPR2015の論文もしくはまとめ資料全てに目を通した※ & CVPR2016参加 & ECCV2016参加 ※ cvpaper.challenge (http://www.slideshare.net/cvpaperchallenge)より
– 速報性を重視したためメモ程度であることにご注意
* CVPR, ICCV, ECCV
まずはDeepの扱いについて – Deep Learningは複雑化・多様化の傾向 • Deep Learningが爆発的にヒットしてから久しい
– ILSVRC2012のAlexNetから4年 – 解析が徐々に進んでいる?
• 構造は深い,コンパクト,ランダム性など取り入れ進化
• ボリュームデータ(3D, 時系列)への適用が進む
• ロボットへの応用がCV系でも徐々に出現
– Unsupervised/ Weakly supervised/ Self-supervised Learning • 出来る限り少ないデータで学習を高度化するという流れ
• CVPR2016時よりも目立った
物体検出 – 高精度化から付加価値 • 高速かつ高精度な検出器が登場(SSD [Liu+, ECCV16])
• セマンティックセグメンテーションの結果と組み合わせて学習を強化 (Contextual Priming & Feedback [Shrivastava+, ECCV16])
• 言語と組み合わせて検出を強化(Grounding of Textual Phrases [Rohrbach+, ECCV16])
h"p://www.eccv2016.org/files/posters/O-1A-02.pdf
セマンティックセグメンテーション – 詳細にする方向と学習やデータ収集の解決 • 質感まで表現出来るセグメンテーション (Portrait Matting [Shen+,
ECCV16]) • 弱教師あり学習 (Weakly-supervised Semantic Segmentation [Tokmakov+,
ECCV16])
• ゲームとの連携により学習データを収集 (Playing for Data [Richer+, ECCV16])
h"p://www.eccv2016.org/files/posters/S-1A-06.pdf h"ps://www.youtube.com/watch?v=JGAIfWG2MQQ
画像解析・画像説明文・VQA – データ整備や精度向上の流れ • VQAの新しいベースライン (Revisit Visual Question Answering [Jabri+,
ECCV16]) • 関係性を記述するための多タスク学習,Zero-shot Learning (Visual
Relationship Detection [Lu+, ECCV16])
h"p://www.eccv2016.org/files/posters/P-3C-42.pdf
ワークショップより – ILSVRC2016 • ILSVRCの参加人数は落ち気味?
• 識別タスクの優勝者はInception-v4をベースとした拡張
• 検出タスクの優勝者も従来技術の拡張
• ILSVRC2015のDeep Residual Networksのようなものはなく,実験の繰り返しによる成果という印象
– Geometry meets Deep Learning • 一方,隣で行われたGeometry meets Deep Learningの方が(単純に)人が多かった
• Invited Talksが豪華だったから?
• GeometryとDeep Learningの人が参加していたから?
新しい流れ? – 何れにしても研究者の興味は画像識別や物体検出等から次に向いている!
– Geometry, 3DへのDeep Learning • ステレオマッチング + Deep Learning (Computing the Stereo Matching
[Zbontar+, CVPR15], DeepStereo [Flynn+, ICCV15]) • 幾何的な関係からGround Truth生成 + Deep Learning (Horizon Lines in
the Wild [Workman+, BMVC16])
• 幾何情報から物体検出のスケール推定 + Deep Learning (Monocular 3D Object Detection [Chen+, CVPR16])
• Homography + Deep Learning (Deep Image Homography Estimation [DeTone+, arXiv16])
• Multi-View CNN [Su+, ICCV15]
流れを助長する取り組み – TorontoCity Dataset • 自動運転用のKITTIデータセットのProf. Raquel Urtasun
• 都市全体を3Dモデリング(LiDAR, Drone, Stereo, Panoramaなど)
• 建物の3D,道路,歩道のセマンティック情報やその他幾何的な情報
• 700km^2の広範囲,10cm^2の分解能
• 複数タスクを提供
• 2016年11月にDocや初期データ,2017年1月にフルデータを公開予定
h"ps://upload.wikimedia.org/wikipedia/en/thumb/b/b4/Toronto_ON_Toronto_Skyline2_modified.jpg/1600px-Toronto_ON_Toronto_Skyline2_modified.jpg
異なるストリーム – いかに少ないデータで学習できるか • Zero-shot, One-shot Learning
– ECCV 2016 Tutorial: https://staff.fnwi.uva.nl/t.e.j.mensink/zsl2016/ • 既存の識別器を組み合わせて新しい物体概念を獲得
• 1枚しか与えられていない画像からいかに多くを捉えて汎用性を持たせるか
– 新しいモーション認識の形を考えよ • Brave new ideas for motion representations in videos
– ECCV 2016 Workshop: http://bravenewmotion.github.io/
• 動画に対するモーション認識は伸び悩んでいる
Oral/Spotlightより
• Ambient Sound Provides Supervision – [Owens+, ECCV16]
– 音声から学習クラスを対応付けて認識精度を向上
– Self-supervisionの概念
Oral/Spotlightより
• The Curious Robot – [Pinto+, ECCV16]
– ロボットの複数タスクを同時に解決するネットワークモデルを構築
h"p://www.eccv2016.org/files/posters/S-1B-05.pdf
Oral/Spotlightより
• Fast Global Registration – [Zhou+, ECCV16]
– Ransacよりx50,ICPよりx3高速なアルゴリズム
Oral/Spotlightより
• Colorful Image Colorization – [Zhang+, ECCV16]
– グレースケール画像をカラーにする研究
– 最近複数件発表される (Let there be color! [Iizuka+, SIGGRAPH16]等)
h"p://www.eccv2016.org/files/posters/O-2B-03.pdf
Oral/Spotlightより
• XNOR-Net – [Rastegari+, ECCV16]
– BinaryNetと類似研究
– XNORでネットワーク演算を行うことで高速化,CPUで実行可能
Oral/Spotlightより
• Capturing Dynamic Textured Surfaces – [Wang+, ECCV16]
– 手持ちのカメラから鮮明な3次元モデル生成
– 人物が動いたとしてもマッチングを実現
h"p://www.eccv2016.org/files/posters/S-3B-06.pdf
今後の方針(1)
• 画像認識 – いかに少ない画像枚数で学習ができるか
– もしくは少ない教師で学習できるか
– ネットワーク構造をコンパクトにしてCPUでも実行できるようにする
– ハンドクラフト特徴の逆襲はあるか?
今後の方針(2)
• 時系列認識 – 空間(RGBのみ)による精度に頼らず,モーションだけをいかに捉えるか
– マルチメディア(YouTube)以外のデータが必要
– モーション認識だけでなくモーションの位置や対象フレームを定める
今後の方針(3)
• 3次元 – Deep Learningとの融合で現在までの手法を強化
– データの準備も必要
– 3次元認識の汎用性
今後の方針(4)
• ツールを使いうまくデータセットを作る – ツールをうまく使い,従来ではできなかったデータを準備する時?
– 認識ラベル,検出枠,セグメンテーションなど
今後の方針(5)
• コンピュータビジョン分野では問題を探してる – ポストCNN, RNN
参考 CVPR 2016 速報
http://www.slideshare.net/HirokatsuKataoka/cvpr-2016