cvpr2011祭り発表スライド

CVPR2011 Paper Digest

(1) Interactive building a discriminative vocabulary of nameable attributes

(2) Recognition using visual phrases

Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato

なぜこの2本を選んだのか？

CVPR2011祭り (July 31, 2011)2

「画像を理解する」をどう問題に落とす？物体認識…？

Horse

Person

物体認識をしただけでは，実は何も理解できていない！（物体だけを認識する一般物体認識の終焉）

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

何が足りないのか？ (1)

CVPR2011祭り (July 31, 2011)3

物体などの属性が足りないでも画像だけで全部できる気がしない

Horse: white

Person: femaleSky: clear

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

Beach: beautiful, sandy

第1論文の主題：属性辞書をインタラクティブに学習

何が足りないのか？ (2)

CVPR2011祭り (July 31, 2011)4

物体間の関係性が足りない

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky.

第2論文の主題：物体とその関係性をクラスと見なす認識

A person is riding on a horse.

A person is wearing clothes.

Interactively building a discriminative vocabulary of

nameable attributes

D. Parikh @ Toyota Technological Institute, ChicagoK. Grauman @ University of Texas at Austin

やりたいこと

CVPR2011祭り (July 31, 2011)6

物体・シーンの属性の辞書・モデルをインタラクティブに構築する

物体やシーンはそれぞれ違うラベルが付いているけど，何か傾向があるような気がする…

何か名前があるかも！聞いてみよう！

アプローチ

CVPR2011祭り (July 31, 2011)7

物体クラスとは異なる類似性を見つける

クラス分類を壊さないような2クラス識別面を見つける

ユーザに見せる画像を適切に選択

尤もらしい仮説だけを選択して提示

類似性発見の方法

CVPR2011祭り (July 31, 2011)8

現在の属性辞書（この図では1つだけどいっぱいあってもOK）

現在の属性辞書で分離しにくい物体クラスの集合を見つける by normalized cuts

教師なし（物体も属性も関係なし）で最大マージンクラスタリング

Mixture of Probabilistic PCAsでモデル化，適切な仮説のみ選択

提示する画像の選択

CVPR2011祭り (July 31, 2011)9

最大マージンクラスタリングで得られた識別面（＝属性候補）

識別面に直交する軸を等間隔に区切る

区切った領域内で，識別面の真ん中に最も近いサンプルを選択

ユーザに何を尋ねるか？

CVPR2011祭り (July 31, 2011)10

•この属性の名前は？（以降はもし属性に名前があれば回答）•左右，どちらに行くほどその特性が強くなるか？•この画像列がその属性を表現するものとして，どの程度尤もらしいか（4段階評価）？

データセット

CVPR2011祭り (July 31, 2011)11

Outdoor scene recognition (OSR) http://people.csail.mit.edu/torralba/code/spatialenvelope/

Animals with attributes (AWA) http://attributes.kyb.tuebingen.mpg.de

共通事項各データセットから8物体クラスを選択

1画像1クラスとなるように加工された画像もある

属性の種類は主旨(gist)と色に限定

インタラクションはMechanical Turk経由

クラス選択と仮説選択の効果

CVPR2011祭り (July 31, 2011)12

クラス選択

クラスのランダム選択やクラス選択なしに比べ，意味ある仮説を適切に

選択できている

仮説選択

仮説のランダム選択と比較して，

意味ある仮説を適切に選択できている

全体としての効果

CVPR2011祭り (July 31, 2011)13

インタラクションを重ねれば，属性辞書は着実に構築されます．

なので，当然，認識精度も少し向上します．

Recognitionusing visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental ScienceA. Farhadi @ University of Illinois at Urbana-Champaign

やりたいこと

CVPR2011祭り (July 31, 2011)15

物体とその関係性を認識する

Person_nextto_bicycle Person_drinking_bottle

Person_riding_bicycle Dog_lyingon_sofa

アプローチ

CVPR2011祭り (July 31, 2011)16

1. 関係性も物体同様，１つの「クラス」と見なす．なので，真に関係性を認識しているわけではない．

2. クラス間の位置関係を考慮して，クラス別での認識結果を修正（追加・削除）

1

2

Deformable part model[Felzenszwalb+ 2010]

PASCAL VOC 標準ソフト採用

各クラスのモデル

CVPR2011祭り (July 31, 2011)17

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/

bicycle

粗めPCA-HOG

物体パーツごとの細かめPCA-HOG

パーツ位置ずれ/変形に対するコスト

各クラスの認識

CVPR2011祭り (July 31, 2011)18

Input image

Model (person)

粗めHOG 細かめHOG （解像度2倍）

クラス別認識結果の統合

CVPR2011祭り (July 31, 2011)19

person

person

person

bag

i番目のbounding boxを最終結果に使うかどうか？

i番目使わない → all 0 のベクトルi番目使う → i番目のbounding boxの特徴表現

クラス別に，位置関係・尤度・サイズ比等を考慮した「何らか」の(9K+1)次元ベクトル（ダッテナニモカイテナイシ）

識別軸 w でクラス判別を行う線形(structured)SVM

i番目のbounding boxのクラスインデックス

結果統合モデルの学習

CVPR2011祭り (July 31, 2011)20

Structured SVMの設計

仮説最適化と目的関数最大化の繰り返しで学習

n番目の画像全体でのbounding boxes の評価値

bounding boxの使用/不使用に関する仮説

仮説と正解とのハミング距離

データセット http://vision.cs.uiuc.edu/phrasal/

CVPR2011祭り (July 31, 2011)21

Bingでphraseを検索，以降は手動作業… 25クラス = 8 objects + 17 phrases

画像 2769枚 (822枚 = negative examples)

各クラス平均120枚のpositives

5067 bounding boxes （phrases:1796, objects:3271)

Dog jumping

Person drinking bottle

Person lying on sofa

関係性認識の精度が良くなります

CVPR2011祭り (July 31, 2011)22

精度が大きく向上した10 phrasesでのPR曲線

関係性認識の精度が良くなります

CVPR2011祭り (July 31, 2011)23

多くのphrasesでbaselineを大きく上回る性能

どのような状況が得手/不得手か，があまり明らかでない

物体認識の精度も少し良くなります

CVPR2011祭り (July 31, 2011)24

Deformable part model [Felzenszwalb+ PAMI2010]（Baselineとなる物体検出器，page 10 参照）

Structured learning formulti-class object layout [Desai+ ICCV2010]（scoring functionを使った物体関係モデルを用いた検出器）

物体認識の精度も良くなります

CVPR2011祭り (July 31, 2011)25

さいごのまとめ

Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato

それでもやっぱりまだ足りない…

CVPR2011祭り (July 31, 2011)27

物体の動作が足りない → 第2論文でできたのはごく一部

風景を系統的に理解できない→ 物体・属性・関係性・動作の総合体，かなぁ

説明文自体を直接生成する

A horse is galloping.

Beach = sky(upper) + water(middle) + sand(lower)??

Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

cvpr2011祭り 発表スライド

Technology

cvpr2011祭り発表スライド