deep learning による視覚×言語融合の最前線
TRANSCRIPT
![Page 1: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/1.jpg)
Deep Learningによる視覚・言語融合の最前線
東京大学 大学院情報理工学系研究科牛久 祥孝losnuevetoros
![Page 2: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/2.jpg)
… の前に
MIRU2017 若手プログラム• 2017 年 8 月 7 日~ 8 月 11 日@広島• 画像の認識・理解シンポジウム( MIRU )内開催• 若手同士で「研究の立ち上げ」
• 参加登録締め切り: 3/31
![Page 3: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/3.jpg)
自己紹介~ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成
• 大規模画像分類
2014.4 ~ 2016.3 NTT コミュニケーション科学基礎研究所2016.4 ~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 ( 原田・牛久研究室 )
![Page 4: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/4.jpg)
2012 年:一般物体認識における激震
2012 年の画像認識タスクでディープ勢が2 位以下に圧
勝 !
2012 年の画像認識タスクでディープ勢が2 位以下に圧
勝 !
2012 年の画像認識タスクでディープ勢が2 位以下に圧
勝 !
![Page 5: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/5.jpg)
2012 年:一般物体認識における激震
ところで公式サイトをみると…
1 位 SuperVision
エラー率 15%
2 位 ISI
エラー率 26%我々というツマ
深層学習という特上ネタ
[http://image-net.org/challenges/LSVRC/2012/results.html]
![Page 6: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/6.jpg)
ユーザー生成コンテンツの爆発的増加
特にコンテンツ投稿・共有サービスでは…• Facebook に画像が 2500 億枚 (2013 年 9 月時
点 )• YouTube にアップロードされる動画
1 分間で計 400 時間分 (2015 年7 月時点 )
Pōhutukawa blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular.
画像 / 動画と関連する文章の対→ 大量に収集可能
![Page 7: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/7.jpg)
入力
出力
Deep Learning の恩恵
• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS 2012]
• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]– RNN で問題になっていた勾配の消失を LSTM
[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように
– LSTM を 4 層つなぎ、 end-to-end で機械学習→ state-of-the-art 並み(英仏翻訳)
CNN/RNN などの共通技術が台頭画像認識や機械翻訳の参入障壁が低下
![Page 8: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/8.jpg)
画像キャプション生成
Group of people sitting at a table with a dinner.
Tourists are standing on the middle of a flat desert.
[Ushiku+, ICCV 2015]
![Page 9: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/9.jpg)
動画キャプション生成
A man is holding a box of doughnuts.Then he and a woman are standing next each other.Then she is holding a plate of food.
[Andrew+, ICIP 2016]
![Page 10: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/10.jpg)
他言語化・キャプション翻訳
Ein Masten mit zwei Ampeln fur Autofahrer. ( 独語 )
A pole with two lights for drivers. ( 英語 )
[Hitschler+, ACL 2016]
![Page 11: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/11.jpg)
キャプションからの画像生成
This bird is blue with white and has a very short beak.
( この鳥は白の入った青色で、とても短いくちばしをもっています。 )
This flower is white and yellow in color, with petals that are wavy and smooth.
( この花は白と黄色で、波打った滑らかな花びらをもっています。 )
[Zhang+, 2016]
![Page 12: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/12.jpg)
ビジュアル質問応答[Fukui+, EMNLP 2016]
![Page 13: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/13.jpg)
本講演の目的
視覚 × 言語の融合研究を俯瞰• 各領域の歴史的な流れ• Deep Learning 登場以前と以後の変化を説明
× Deep Learning で初めてこれらの研究が誕生✓ Deep Learning でこれらの研究が精緻化
1. 画像キャプション生成2. 動画キャプション生成3. 言語横断4. 画像に関する質問への応答5. キャプションからの画像生成
![Page 14: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/14.jpg)
視覚・言語融合の最前線 1画像キャプション生成
![Page 15: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/15.jpg)
Every picture tells a story [Farhadi+, ECCV 2010]
データセット:画像+<object, action, scene>+ キャプション
1. 画像の <object, action, scene> を MRF で推定
2. <object, action, scene> が同じキャプションを検索して利用
<Horse, Ride, Field>
![Page 16: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/16.jpg)
Every picture tells a story [Farhadi+, ECCV 2010]
![Page 17: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/17.jpg)
再利用?新規生成?
• 再利用
• 新規生成–テンプレート主語+動詞の文を生成しよう
–非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 18: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/18.jpg)
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成–テンプレート主語+動詞の文を生成しよう
–非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 19: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/19.jpg)
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成–テンプレート
dog+ stand ⇒ A dog stands.–非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 20: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/20.jpg)
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成–テンプレート
dog+ stand ⇒ A dog stands.–非テンプレート
A small white dog standing on a leash.
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 21: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/21.jpg)
マルチキーフレーズ推定アプローチ
当時の問題=使用候補であるフレーズの精度が悪い
仮説 : 画像の内容は少数の主要なフレーズで特定可能
あとは文法モデルで繋げばよい!
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定=一般画像認識文生成は [Ushiku+, ACM MM 2011] と同じ
[Ushiku+, ACM MM 2012]
![Page 22: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/22.jpg)
文の終わり
![Page 23: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/23.jpg)
入力
出力
Deep Learning の恩恵 (再掲 )• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS
2012]• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]– RNN で問題になっていた勾配の消失を LSTM
[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように
– LSTM を 4 層つなぎ、 end-to-end で機械学習→ state-of-the-art 並み(英仏翻訳)
CNN/RNN などの共通技術が台頭画像認識や機械翻訳の参入障壁が低下
![Page 24: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/24.jpg)
Google NIC [Vinyals+, CVPR 2015]
Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する。
画像への文(単語列)は意味する単語
を意味する単語
![Page 25: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/25.jpg)
生成された説明文の例
[https://github.com/tensorflow/models/tree/master/im2txt]
![Page 26: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/26.jpg)
[Ushiku+, ACM MM 2012] と比べると
入力画像
[Ushiku+, ACM MM 2012] では:Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:CNN (オンライン学習なのは一緒)
CVPR 2015 の各論文では:RNN とビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012] では:キーフレーズと文法モデル、ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
• いずれも画像 + キャプションのみから学習可能• 全体の流れは非常に似ている
“ キーフレーズ”
![Page 27: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/27.jpg)
一番大きく違うところは…?
• 深層学習以前の新規キャプション生成
何らかの語句に変換してから文生成器へ
• 深層学習による新規キャプション生成
画像特徴量を直接文生成器へ
![Page 28: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/28.jpg)
ところが最近では…
• CNN で事物の認識まで済ませて RNN で文生成 [Wu+, CVPR 2016][You+, CVPR 2016]→ 画像特徴量の段階で RNN に渡すより高性能!
• 深層学習以前のアプローチとより類似
[You+, CVPR 2016][Wu+, CVPR 2016]
![Page 29: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/29.jpg)
現在の展開:精度の発展
• 画像認識Inceptionモデルや ResNet など、より高精度なCNN
• 自然言語処理画像認識側が完璧になったと仮定した文生成 [Gupta+Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+, ICLR workshop 2016]
• 機械学習変分自己符号化器の利用 [Pu+, NIPS 2017]
![Page 30: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/30.jpg)
現在の展開:精度の発展
• 2 分野が融合して新たに生まれたものの例:–アテンションモデルの利用 [Xu+, ICML 2015]
–画像 + キャプションから注視モデルも学習!
![Page 31: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/31.jpg)
現在の展開:問題の発展
より細かいキャプション生成[Lin+, BMVC 2015] [Johnson+, CVPR 2016]
![Page 32: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/32.jpg)
現在の展開:問題の発展
アルバムのような系列画像にキャプション生成[Park+Kim, NIPS 2015][Huang+, NAACL 2016]
The family got together for a cookout.
They had a lot of delicious food.
The dog was happy to be there.
They had a great time on the beach.
They even had a swim in the water.
![Page 33: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/33.jpg)
現在の展開:問題の発展
感性語 Sentiment Term を重視したキャプション生成 [Mathews+, AAAI 2016][Andrew+, BMVC 2016]←Ours! ニュートラルな文
ポジティブな文(生成した例)
![Page 34: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/34.jpg)
視覚・言語融合の最前線 2動画キャプション生成
![Page 35: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/35.jpg)
深層学習登場以前
• 言語と動画内の物体とのグラウンディング[Yu+Siskind, ACL 2013]–動画とその動画を説明する文のみから学習–対象物体が少なく、コントロールされた小規模データセットでの実験
• 深層学習との親和性は高いはず–画像キャプション生成:静止画→単語列–動画キャプション生成:静止画列→単語列
![Page 36: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/36.jpg)
深層学習による end-to-end な学習
• LRCN[Donahue+, CVPR 2015]– CNN+RNN• 動作認識• 画像 / 動画
キャプション生成
• Video to Text [Venugopalan+, ICCV 2015]– CNN+RNN• RGB 画像で物体を• オプティカルフローで
動作を認識→キャプション生成
![Page 37: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/37.jpg)
動画キャプション生成
A man is holding a box of doughnuts.Then he and a woman are standing next each other.Then she is holding a plate of food.
[Andrew+, ICIP 2016]
![Page 38: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/38.jpg)
動画キャプション生成
A boat is floating on the water near a mountain.And a man riding a wave on top of a surfboard.Then he on the surfboard in the water.
[Andrew+, ICIP 2016]
![Page 39: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/39.jpg)
MS COCO Captioning Challenge
• CVPR 2015 で行われた競争型ワークショップ– 1 位: Google• 基本的には Google NIC• 後の [Bengio+, NIPS2015] において…
RNN の学習に Curriculum Learning [Bengio+, ICML 2009] を導入していたことが判明
– 2 位: MSR • CVPR2015 で発表された論文の通り、
CNN+RNN 以外の工夫もしている• のちに RNN による文生成も検討
[Devlin+, IJCNLP 2015]
![Page 40: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/40.jpg)
キャプション生成そのものは終わった?
• 深層学習のおかげで画像認識は人間並み…?– ILSVRC 2015 における 1000 クラス画像認識で
は…誤識別率:人( 5% )より ResNet ( 4%弱)が正確
–MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合M2:チューリングテストをパスしたキャプションの割合M3:正確さの 5段階評価( 5 が最良)M4:詳細さの 5段階評価( 5 が最良)M5:既存キャプションによく似たキャプションの割合
アンケート評価
![Page 41: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/41.jpg)
キャプション生成の 2 大アプローチ
• 既存キャプションの再利用× 全く同じ内容のキャプションがあるか不明
✔ 文法的に正しい
• 新規キャプション生成 ✔ 画像の内容を過不足なく表現できるはず
× 文法的に正しいか分からない
![Page 42: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/42.jpg)
Deep Learning によって
• 既存キャプションの再利用× 全く同じ内容のキャプションがあるか不明
✔ 文法的に正しい ✔ 詳細な記述をあてられる
• 新規キャプション生成 ✔ 画像の内容を過不足なく表現できるはず ✔ 文法的に正しいか分からない正しい
× 曖昧な、最大公約数的な記述になる
![Page 43: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/43.jpg)
視覚・言語融合の最前線 3他言語化・キャプション翻訳
![Page 44: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/44.jpg)
他言語への展開
データセット• IAPR TC12 [Grubinger+, 2006] 20,000 画像 + 英独• Multi30K [Elliot+, 2016] 30,000 画像 + 英独• STAIR Captions [吉川ら、 2017]
MS COCO (10万超画像+英語キャプション )→ すべてに日本語キャプションを付与
タスクとしての展開• 英語でない画像キャプション生成• マルチモーダル機械翻訳 / 言語間文書検索
1. 入力:言語 A でのキャプション + 画像2. 入力:言語 A でのキャプション→ 出力:言語 B でのキャプション( 1. と 2. で同じ)
![Page 45: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/45.jpg)
英語でない画像キャプション生成
![Page 46: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/46.jpg)
英語でない画像キャプション生成
多くは英語のキャプションを生成するが…
• 日本語 [Miyazaki+Shimizu, ACL 2016]
• 中国語 [Li+, ICMR 2016]
• トルコ語 [Unal+, SIU 2016]
Çimlerde ko¸ san bir köpek
金色头发的小女孩
柵の中にキリンが一頭立っています
![Page 47: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/47.jpg)
単にデータ集めを頑張るだけ?
他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]• 他言語の視覚 - 言語グラウンディングの転移• 少数のキャプション付き画像でも効率よく学習
an elephant is
an elephant
一匹の 象が 土の
一匹の 象が
英語で学習した重みを日本語で再利用
![Page 48: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/48.jpg)
マルチモーダル機械翻訳
![Page 49: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/49.jpg)
言語横断型の研究
画像は機械翻訳の精度に寄与 [Calixto+,2012]• 英語で seal とあるけど、
・ stamp に近い seal なのか?・ sea animal の seal なのか?
がわからず誤ったポルトガル語に翻訳
• (実験してないけど)画像があれば防げるはず!
![Page 50: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/50.jpg)
入力:言語 A のキャプション + 画像
• 画像を介した言語横断キャプション翻訳[Elliott+, 2015] [Hitschler+, ACL 2016]–最初に候補翻訳を複数生成(画像には非依存)–類似画像に付随する言語 B のキャプションを利用して翻訳候補から出力を選択
Eine Person in einem Anzug und Krawatte und einem Rock. ( 独語 )
画像を見ない場合の翻訳
A person in a suit and tie and a rock.画像を利用した場合の翻訳
A person in a suit and tie and a skirt.
![Page 51: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/51.jpg)
入力:言語 A のキャプション
• 画像を介した言語横断関連文書検索[Funaki+Nakayama, EMNLP 2015]
• ゼロ対訳コーパスでのマルチモーダル翻訳[Nakayama+Nishida, 2017]
![Page 52: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/52.jpg)
視覚・言語融合の最前線 4画像に関する質問への応答
![Page 53: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/53.jpg)
Visual Question Answering (VQA)最初はユーザインタフェース分野で注目• VizWiz [Bigham+, UIST 2010]
AMT で人力解決
• 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014]
• 類似用語: Visual Turing Test [Malinowski+Fritz, 2014]
![Page 54: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/54.jpg)
VQA: Visual Question Answering• ビジュアル質問応答を分野として確立–ベンチマークデータセットの提供–ベースとなるパイプラインでの実験
• ポータルサイトも運営
– http://www.visualqa.org/–国際コンペティションも開催
[Antol+, ICCV 2015]
What color are her eyes?What is the mustache made of?
![Page 55: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/55.jpg)
VQA DatasetAMT で質問と回答を収集• 10万超の実画像、 3万超のアニメ調画像• 計 70万弱の質問+それぞれ 10 の模範回答
![Page 56: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/56.jpg)
VQA=多クラス分類問題
表現ベクトル通常のクラス識別
質問文What objects arefound on the bed?
応答bed sheets, pillow
画像 画像特徴量
質問特徴量
統合された表現ベクトル
![Page 57: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/57.jpg)
その後の展開
「統合された表現ベクトル」の工夫
• VQA [Antol+, ICCV 2015] :そのまま直列に並べる
• 「和」グループ例 Attention で重みづけ和をとった画像特徴と質問特徴を単純に足す [Xu+Saenko, ECCV 2016]
• 「積」グループ例 双線形積とフーリエ変換を組み合わせる[Fukui+, EMNLP 2016]
• 「和」と「積」のハイブリッド例 要素毎の積と要素毎の和を直列に並べる[Saito+, ICME 2017]
𝑧 𝐼+𝑄=¿𝑥𝐼𝑥𝑄
𝑥𝐼 𝑥𝑄
𝑥𝐼 𝑥𝑄𝑧 𝐼+𝑄=¿
𝑧 𝐼+𝑄=¿
𝑧 𝐼+𝑄=¿𝑥𝐼 𝑥𝑄𝑥𝐼 𝑥𝑄
![Page 58: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/58.jpg)
VQA Challengeコンペティション参加チームの解答例から
Q: What is the woman holding?GT A: laptopMachine A: laptop
Q: Is it going to rain soon?GT A: yesMachine A: yes
![Page 59: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/59.jpg)
VQA Challengeコンペティション参加チームの解答例から
Q: Why is there snow on one side of the stream and clear grass on the other?GT A: shadeMachine A: yes
Q: Is the hydrant painted a new color?GT A: yesMachine A: no
![Page 60: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/60.jpg)
視覚・言語融合の最前線 5キャプションからの画像生成
![Page 61: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/61.jpg)
キャプションを入力して画像を生成
文から鮮明な画像の生成を実現↑難しいタスク (下は [Mansimov+, ICLR 2016] の例)
※ 画像の切り貼りは以前から [Hays+Efros, SIGGRAPH 2007]
![Page 62: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/62.jpg)
文からの画像生成=条件つき生成
まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]
Generator乱数から画像を生成
Discriminator実画像と生成画像を見分ける
はお前が生成したな!
![Page 63: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/63.jpg)
文からの画像生成=条件つき生成
まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]
Generator乱数から画像を生成
Discriminator実画像と生成画像を見分ける
はお前が生成したな!
![Page 64: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/64.jpg)
文からの画像生成=条件つき生成
まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]
Generator乱数から画像を生成
Discriminator実画像と生成画像を見分ける
はお前が生成したな!
![Page 65: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/65.jpg)
文からの画像生成=条件つき生成
まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]
Generator乱数から画像を生成
Discriminator実画像と生成画像を見分ける
はお前が生成したな!
![Page 66: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/66.jpg)
文からの画像生成=条件つき生成
まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習
学習が進むと:
• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]
Generator乱数から画像を生成
Discriminator実画像と生成画像を見分ける
むむむ…
![Page 67: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/67.jpg)
文で生成結果を変えるには
Generator と Discriminator に文を加える
・自然な画像・文に沿った画像を生成しようとする
・不自然な画像・文に合わない画像を識別しようとする
![Page 68: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/68.jpg)
生成できた画像の例
• 鳥 (CUB)/ 花 (Oxford-102) データセット–約 1万の鳥 / 花画像と 5 キャプション / 画像– 200種類の鳥 /102種類の花
A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch
Bright droopy yellow petals with burgundy streaks, and a yellow stigma
![Page 69: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/69.jpg)
その後の展開
StackGAN [Zhang+, 2016]
• 2段階の GAN からなるモデル• 1段目でぼやっとした画像を生成、 2段目で高解像 +詳細
化
![Page 70: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/70.jpg)
キャプションからの画像生成
This bird is blue with white and has a very short beak.
( この鳥は白の入った青色で、とても短いくちばしをもっています。 )
This flower is white and yellow in color, with petals that are wavy and smooth.
( この花は白と黄色で、波打った滑らかな花びらをもっています。 )
[Zhang+, 2016]
![Page 71: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/71.jpg)
キャプションからの画像生成
This bird is blue with white and has a very short beak.
( この鳥は白の入った青色で、とても短いくちばしをもっています。 )
This flower is white and yellow in color, with petals that are wavy and smooth.
( この花は白と黄色で、波打った滑らかな花びらをもっています。 )
[Zhang+, 2016]
鳥 / 花に特化したデータセットでの結果→ 一般的な画像を生成するにはより一層のブレイクスルーが必要
![Page 72: Deep Learning による視覚×言語融合の最前線](https://reader035.vdocuments.mx/reader035/viewer/2022062321/58e49b881a28aba3458b4fe5/html5/thumbnails/72.jpg)
まとめ
• Deep Learning による視覚・言語融合を俯瞰1. 画像キャプション生成2. 動画キャプション生成3. 言語横断4. 画像に関する質問への応答5. キャプションからの画像生成
• Deep Learning の貢献– 上記研究課題自体は Deep Learning 以前も存在– 画像、動画、自然言語処理技術の共通化– 認識と生成の精緻化
視覚 × 言語の新たなステージへ