cvpr2011祭り 発表スライド
DESCRIPTION
7/31 Sun 開催予定のCVPR2011祭りの発表スライドを公開します.TRANSCRIPT
![Page 1: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/1.jpg)
CVPR2011 Paper Digest
(1) Interactive building a discriminative vocabulary of nameable attributes
(2) Recognition using visual phrases
Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato
![Page 2: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/2.jpg)
なぜこの2本を選んだのか?
CVPR2011祭り (July 31, 2011)2
「画像を理解する」をどう問題に落とす? 物体認識…?
Horse
Person
物体認識をしただけでは,実は何も理解できていない!(物体だけを認識する一般物体認識の終焉)
[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.
![Page 3: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/3.jpg)
何が足りないのか? (1)
CVPR2011祭り (July 31, 2011)3
物体などの属性が足りない でも画像だけで全部できる気がしない
Horse: white
Person: femaleSky: clear
[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.
Beach: beautiful, sandy
第1論文の主題: 属性辞書をインタラクティブに学習
![Page 4: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/4.jpg)
何が足りないのか? (2)
CVPR2011祭り (July 31, 2011)4
物体間の関係性が足りない
[ Full description ]A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky.
第2論文の主題: 物体とその関係性をクラスと見なす認識
A person is riding on a horse.
A person is wearing clothes.
![Page 5: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/5.jpg)
Interactively building a discriminative vocabulary of
nameable attributes
D. Parikh @ Toyota Technological Institute, ChicagoK. Grauman @ University of Texas at Austin
![Page 6: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/6.jpg)
やりたいこと
CVPR2011祭り (July 31, 2011)6
物体・シーンの属性の辞書・モデルをインタラクティブに構築する
物体やシーンはそれぞれ違うラベルが付いているけど,何か傾向があるような気がする…
何か名前があるかも!聞いてみよう!
![Page 7: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/7.jpg)
アプローチ
CVPR2011祭り (July 31, 2011)7
物体クラスとは異なる類似性を見つける
クラス分類を壊さないような2クラス識別面を見つける
ユーザに見せる画像を適切に選択
尤もらしい仮説だけを選択して提示
![Page 8: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/8.jpg)
類似性発見の方法
CVPR2011祭り (July 31, 2011)8
現在の属性辞書(この図では1つだけどいっぱいあってもOK)
現在の属性辞書で分離しにくい物体クラスの集合を見つける by normalized cuts
教師なし(物体も属性も関係なし)で最大マージンクラスタリング
Mixture of Probabilistic PCAsでモデル化,適切な仮説のみ選択
![Page 9: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/9.jpg)
提示する画像の選択
CVPR2011祭り (July 31, 2011)9
最大マージンクラスタリングで得られた識別面 (=属性候補)
識別面に直交する軸を等間隔に区切る
区切った領域内で,識別面の真ん中に最も近いサンプルを選択
![Page 10: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/10.jpg)
ユーザに何を尋ねるか?
CVPR2011祭り (July 31, 2011)10
•この属性の名前は? (以降はもし属性に名前があれば回答)•左右,どちらに行くほどその特性が強くなるか?•この画像列がその属性を表現するものとして,どの程度尤もらしいか (4段階評価)?
![Page 11: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/11.jpg)
データセット
CVPR2011祭り (July 31, 2011)11
Outdoor scene recognition (OSR) http://people.csail.mit.edu/torralba/code/spatialenvelope/
Animals with attributes (AWA) http://attributes.kyb.tuebingen.mpg.de
共通事項 各データセットから8物体クラスを選択
1画像1クラスとなるように加工された画像もある
属性の種類は主旨(gist)と色に限定
インタラクションはMechanical Turk経由
![Page 12: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/12.jpg)
クラス選択と仮説選択の効果
CVPR2011祭り (July 31, 2011)12
クラス選択
クラスのランダム選択やクラス選択なしに比べ,意味ある仮説を適切に
選択できている
仮説選択
仮説のランダム選択と比較して,
意味ある仮説を適切に選択できている
![Page 13: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/13.jpg)
全体としての効果
CVPR2011祭り (July 31, 2011)13
インタラクションを重ねれば,属性辞書は着実に構築されます.
なので,当然,認識精度も少し向上します.
![Page 14: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/14.jpg)
Recognitionusing visual phrases
M.A. Sadeghi @ Institute for Research in Fundamental ScienceA. Farhadi @ University of Illinois at Urbana-Champaign
![Page 15: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/15.jpg)
やりたいこと
CVPR2011祭り (July 31, 2011)15
物体とその関係性を認識する
Person_nextto_bicycle Person_drinking_bottle
Person_riding_bicycle Dog_lyingon_sofa
![Page 16: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/16.jpg)
アプローチ
CVPR2011祭り (July 31, 2011)16
1. 関係性も物体同様,1つの「クラス」と見なす. なので,真に関係性を認識しているわけではない.
2. クラス間の位置関係を考慮して,クラス別での認識結果を修正 (追加・削除)
1
2
![Page 17: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/17.jpg)
Deformable part model[Felzenszwalb+ 2010]
PASCAL VOC 標準ソフト採用
各クラスのモデル
CVPR2011祭り (July 31, 2011)17
Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/
bicycle
粗めPCA-HOG
物体パーツごとの細かめPCA-HOG
パーツ位置ずれ/変形に対するコスト
![Page 18: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/18.jpg)
各クラスの認識
CVPR2011祭り (July 31, 2011)18
Input image
Model (person)
粗めHOG 細かめHOG (解像度2倍)
![Page 19: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/19.jpg)
クラス別認識結果の統合
CVPR2011祭り (July 31, 2011)19
person
person
person
bag
i番目のbounding boxを最終結果に使うかどうか?
i番目使わない → all 0 のベクトルi番目使う → i番目のbounding boxの特徴表現
クラス別に,位置関係・尤度・サイズ比等を考慮した「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ)
識別軸 w でクラス判別を行う線形(structured)SVM
i番目のbounding boxのクラス インデックス
![Page 20: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/20.jpg)
結果統合モデルの学習
CVPR2011祭り (July 31, 2011)20
Structured SVMの設計
仮説最適化と目的関数最大化の繰り返しで学習
n番目の画像全体でのbounding boxes の評価値
bounding boxの使用/不使用に関する仮説
仮説と正解とのハミング距離
![Page 21: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/21.jpg)
データセット http://vision.cs.uiuc.edu/phrasal/
CVPR2011祭り (July 31, 2011)21
Bingでphraseを検索,以降は手動作業… 25クラス = 8 objects + 17 phrases
画像 2769枚 (822枚 = negative examples)
各クラス 平均120枚のpositives
5067 bounding boxes (phrases:1796, objects:3271)
Dog jumping
Person drinking bottle
Person lying on sofa
![Page 22: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/22.jpg)
関係性認識の精度が良くなります
CVPR2011祭り (July 31, 2011)22
精度が大きく向上した10 phrasesでのPR曲線
![Page 23: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/23.jpg)
関係性認識の精度が良くなります
CVPR2011祭り (July 31, 2011)23
多くのphrasesでbaselineを大きく上回る性能
どのような状況が得手/不得手か,があまり明らかでない
![Page 24: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/24.jpg)
物体認識の精度も少し良くなります
CVPR2011祭り (July 31, 2011)24
Deformable part model [Felzenszwalb+ PAMI2010](Baselineとなる物体検出器,page 10 参照)
Structured learning formulti-class object layout [Desai+ ICCV2010](scoring functionを使った物体関係モデルを用いた検出器)
![Page 25: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/25.jpg)
物体認識の精度も良くなります
CVPR2011祭り (July 31, 2011)25
![Page 26: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/26.jpg)
さいごのまとめ
Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato
![Page 27: CVPR2011祭り 発表スライド](https://reader030.vdocuments.mx/reader030/viewer/2022012405/54b6de874a7959f4118b4636/html5/thumbnails/27.jpg)
それでもやっぱりまだ足りない…
CVPR2011祭り (July 31, 2011)27
物体の動作が足りない → 第2論文でできたのはごく一部
風景を系統的に理解できない→ 物体・属性・関係性・動作の総合体,かなぁ
説明文自体を直接生成する
A horse is galloping.
Beach = sky(upper) + water(middle) + sand(lower)??
Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011