deep learning による視覚×言語融合の最前線

Deep Learningによる視覚・言語融合の最前線

東京大学大学院情報理工学系研究科牛久祥孝losnuevetoros

… の前に

MIRU2017 若手プログラム• 2017 年 8 月 7 日～ 8 月 11 日＠広島• 画像の認識・理解シンポジウム（ MIRU ）内開催• 若手同士で「研究の立ち上げ」

• 参加登録締め切り： 3/31

自己紹介～ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成

• 大規模画像分類

2014.4 ～ 2016.3 NTT コミュニケーション科学基礎研究所2016.4 ～東京大学大学院情報理工学系研究科

知能機械情報学専攻講師 ( 原田・牛久研究室 )

2012 年：一般物体認識における激震

2012 年の画像認識タスクでディープ勢が2 位以下に圧

勝 !


勝 !


勝 !

2012 年：一般物体認識における激震

ところで公式サイトをみると…

1 位 SuperVision

エラー率 15%

2 位 ISI

エラー率 26%我々というツマ

深層学習という特上ネタ

[http://image-net.org/challenges/LSVRC/2012/results.html]

ユーザー生成コンテンツの爆発的増加

特にコンテンツ投稿・共有サービスでは…• Facebook に画像が 2500 億枚 (2013 年 9 月時

点 )• YouTube にアップロードされる動画

1 分間で計 400 時間分 (2015 年7 月時点 )

Pōhutukawa blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular.

画像 / 動画と関連する文章の対→ 大量に収集可能

入力

出力

Deep Learning の恩恵

• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS 2012]

• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]– RNN で問題になっていた勾配の消失を LSTM

[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように

– LSTM を 4 層つなぎ、 end-to-end で機械学習→ state-of-the-art 並み（英仏翻訳）

CNN/RNN などの共通技術が台頭画像認識や機械翻訳の参入障壁が低下

画像キャプション生成

Group of people sitting at a table with a dinner.

Tourists are standing on the middle of a flat desert.

[Ushiku+, ICCV 2015]

動画キャプション生成

A man is holding a box of doughnuts.Then he and a woman are standing next each other.Then she is holding a plate of food.

[Andrew+, ICIP 2016]

他言語化・キャプション翻訳

Ein Masten mit zwei Ampeln fur Autofahrer. ( 独語 )

A pole with two lights for drivers. ( 英語 )

[Hitschler+, ACL 2016]

キャプションからの画像生成

This bird is blue with white and has a very short beak.

( この鳥は白の入った青色で、とても短いくちばしをもっています。 )

This flower is white and yellow in color, with petals that are wavy and smooth.

( この花は白と黄色で、波打った滑らかな花びらをもっています。 )

[Zhang+, 2016]

ビジュアル質問応答[Fukui+, EMNLP 2016]

本講演の目的

視覚 × 言語の融合研究を俯瞰• 各領域の歴史的な流れ• Deep Learning 登場以前と以後の変化を説明

× Deep Learning で初めてこれらの研究が誕生✓ Deep Learning でこれらの研究が精緻化

1. 画像キャプション生成2. 動画キャプション生成3. 言語横断4. 画像に関する質問への応答5. キャプションからの画像生成

視覚・言語融合の最前線 1画像キャプション生成

Every picture tells a story [Farhadi+, ECCV 2010]

データセット：画像＋<object, action, scene>+ キャプション

1. 画像の <object, action, scene> を MRF で推定

2. <object, action, scene> が同じキャプションを検索して利用

<Horse, Ride, Field>

Every picture tells a story [Farhadi+, ECCV 2010]

再利用？新規生成？

• 再利用

• 新規生成–テンプレート主語＋動詞の文を生成しよう

–非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力データセット


• 再利用– A small gray dog on a leash.

• 新規生成–テンプレート主語＋動詞の文を生成しよう

–非テンプレート







• 新規生成–テンプレート

dog＋ stand ⇒ A dog stands.–非テンプレート







• 新規生成–テンプレート

dog＋ stand ⇒ A dog stands.–非テンプレート

A small white dog standing on a leash.





マルチキーフレーズ推定アプローチ

当時の問題＝使用候補であるフレーズの精度が悪い

仮説 : 画像の内容は少数の主要なフレーズで特定可能

あとは文法モデルで繋げばよい！

キーフレーズを独立なラベルとして扱うと…

マルチキーフレーズの推定＝一般画像認識文生成は [Ushiku+, ACM MM 2011] と同じ

[Ushiku+, ACM MM 2012]

文の終わり

入力

出力

Deep Learning の恩恵 (再掲 )• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS

2012]• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]– RNN で問題になっていた勾配の消失を LSTM

[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように

– LSTM を 4 層つなぎ、 end-to-end で機械学習→ state-of-the-art 並み（英仏翻訳）

CNN/RNN などの共通技術が台頭画像認識や機械翻訳の参入障壁が低下

Google NIC [Vinyals+, CVPR 2015]

Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]

• LSTM [Sutskever+, NIPS 2014]

を直列させて文生成する。

画像への文（単語列）は意味する単語

を意味する単語

生成された説明文の例

[https://github.com/tensorflow/models/tree/master/im2txt]

[Ushiku+, ACM MM 2012] と比べると

入力画像

[Ushiku+, ACM MM 2012] では：Fisher Vector + 線形分類オンライン学習

CVPR 2015 の各論文では：CNN （オンライン学習なのは一緒）

CVPR 2015 の各論文では：RNN とビームサーチで文をつなぐ

[Ushiku+, ACM MM 2012] では：キーフレーズと文法モデル、ビームサーチで文をつなぐ

文の一部で重要そうなものを複数推定文法モデルを利用して繋ぎ、説明文に

• いずれも画像 + キャプションのみから学習可能• 全体の流れは非常に似ている

“ キーフレーズ”

一番大きく違うところは…？

• 深層学習以前の新規キャプション生成

何らかの語句に変換してから文生成器へ

• 深層学習による新規キャプション生成

画像特徴量を直接文生成器へ　　

ところが最近では…

• CNN で事物の認識まで済ませて RNN で文生成 [Wu+, CVPR 2016][You+, CVPR 2016]→ 画像特徴量の段階で RNN に渡すより高性能！

• 深層学習以前のアプローチとより類似

[You+, CVPR 2016][Wu+, CVPR 2016]

現在の展開：精度の発展

• 画像認識Inceptionモデルや ResNet など、より高精度なCNN

• 自然言語処理画像認識側が完璧になったと仮定した文生成 [Gupta+Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+, ICLR workshop 2016]

• 機械学習変分自己符号化器の利用 [Pu+, NIPS 2017]

現在の展開：精度の発展

• 2 分野が融合して新たに生まれたものの例：–アテンションモデルの利用 [Xu+, ICML 2015]

–画像 + キャプションから注視モデルも学習！

現在の展開：問題の発展

より細かいキャプション生成[Lin+, BMVC 2015] [Johnson+, CVPR 2016]


アルバムのような系列画像にキャプション生成[Park+Kim, NIPS 2015][Huang+, NAACL 2016]

The family got together for a cookout.

They had a lot of delicious food.

The dog was happy to be there.

They had a great time on the beach.

They even had a swim in the water.


感性語 Sentiment Term を重視したキャプション生成 [Mathews+, AAAI 2016][Andrew+, BMVC 2016]←Ours! ニュートラルな文

ポジティブな文（生成した例）

視覚・言語融合の最前線 2動画キャプション生成

深層学習登場以前

• 言語と動画内の物体とのグラウンディング[Yu+Siskind, ACL 2013]–動画とその動画を説明する文のみから学習–対象物体が少なく、コントロールされた小規模データセットでの実験

• 深層学習との親和性は高いはず–画像キャプション生成：静止画→単語列–動画キャプション生成：静止画列→単語列

深層学習による end-to-end な学習

• LRCN[Donahue+, CVPR 2015]– CNN+RNN• 動作認識• 画像 / 動画

キャプション生成

• Video to Text [Venugopalan+, ICCV 2015]– CNN+RNN• RGB 画像で物体を• オプティカルフローで

動作を認識→キャプション生成


A man is holding a box of doughnuts.Then he and a woman are standing next each other.Then she is holding a plate of food.



A boat is floating on the water near a mountain.And a man riding a wave on top of a surfboard.Then he on the surfboard in the water.


　　　　　　 MS COCO Captioning Challenge

• CVPR 2015 で行われた競争型ワークショップ– 1 位： Google• 基本的には Google NIC• 後の [Bengio+, NIPS2015] において…

RNN の学習に Curriculum Learning [Bengio+, ICML 2009] を導入していたことが判明

– 2 位： MSR • CVPR2015 で発表された論文の通り、

CNN+RNN 以外の工夫もしている• のちに RNN による文生成も検討

[Devlin+, IJCNLP 2015]

キャプション生成そのものは終わった？

• 深層学習のおかげで画像認識は人間並み…？– ILSVRC 2015 における 1000 クラス画像認識で

は…誤識別率：人（ 5% ）より ResNet （ 4%弱）が正確

–MS COCO Captioning Challenge では…

M1:人間並みかそれ以上のキャプションの割合M2:チューリングテストをパスしたキャプションの割合M3:正確さの 5段階評価（ 5 が最良）M4:詳細さの 5段階評価（ 5 が最良）M5:既存キャプションによく似たキャプションの割合

アンケート評価

キャプション生成の 2 大アプローチ

• 既存キャプションの再利用× 全く同じ内容のキャプションがあるか不明

✔ 文法的に正しい

• 新規キャプション生成 ✔ 画像の内容を過不足なく表現できるはず

× 文法的に正しいか分からない

Deep Learning によって

• 既存キャプションの再利用× 全く同じ内容のキャプションがあるか不明

✔ 文法的に正しい ✔ 詳細な記述をあてられる

• 新規キャプション生成 ✔ 画像の内容を過不足なく表現できるはず ✔ 文法的に正しいか分からない正しい

× 曖昧な、最大公約数的な記述になる

視覚・言語融合の最前線 3他言語化・キャプション翻訳

他言語への展開

データセット• IAPR TC12 [Grubinger+, 2006] 20,000 画像 + 英独• Multi30K [Elliot+, 2016] 30,000 画像 + 英独• STAIR Captions [吉川ら、 2017]

MS COCO (10万超画像＋英語キャプション )→ すべてに日本語キャプションを付与

タスクとしての展開• 英語でない画像キャプション生成• マルチモーダル機械翻訳 / 言語間文書検索

1. 入力：言語 A でのキャプション + 画像2. 入力：言語 A でのキャプション→ 出力：言語 B でのキャプション（ 1. と 2. で同じ）

英語でない画像キャプション生成

英語でない画像キャプション生成

多くは英語のキャプションを生成するが…

• 日本語 [Miyazaki+Shimizu, ACL 2016]

• 中国語 [Li+, ICMR 2016]

• トルコ語 [Unal+, SIU 2016]

Çimlerde ko¸ san bir köpek

金色头发的小女孩

柵の中にキリンが一頭立っています

単にデータ集めを頑張るだけ？

他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]• 他言語の視覚 - 言語グラウンディングの転移• 少数のキャプション付き画像でも効率よく学習

an elephant is

an elephant

一匹の象が土の

一匹の象が

英語で学習した重みを日本語で再利用

マルチモーダル機械翻訳

言語横断型の研究

画像は機械翻訳の精度に寄与 [Calixto+,2012]• 英語で seal とあるけど、

・ stamp に近い seal なのか？・ sea animal の seal なのか？

がわからず誤ったポルトガル語に翻訳

• （実験してないけど）画像があれば防げるはず！

入力：言語 A のキャプション + 画像

• 画像を介した言語横断キャプション翻訳[Elliott+, 2015] [Hitschler+, ACL 2016]–最初に候補翻訳を複数生成（画像には非依存）–類似画像に付随する言語 B のキャプションを利用して翻訳候補から出力を選択

Eine Person in einem Anzug und Krawatte und einem Rock. ( 独語 )

画像を見ない場合の翻訳

A person in a suit and tie and a rock.画像を利用した場合の翻訳

A person in a suit and tie and a skirt.

入力：言語 A のキャプション

• 画像を介した言語横断関連文書検索[Funaki+Nakayama, EMNLP 2015]

• ゼロ対訳コーパスでのマルチモーダル翻訳[Nakayama+Nishida, 2017]

視覚・言語融合の最前線 4画像に関する質問への応答

Visual Question Answering (VQA)最初はユーザインタフェース分野で注目• VizWiz [Bigham+, UIST 2010]

AMT で人力解決

• 初の自動化（ディープラーニング不使用） [Malinowski+Fritz, NIPS 2014]

• 類似用語： Visual Turing Test [Malinowski+Fritz, 2014]

VQA: Visual Question Answering• ビジュアル質問応答を分野として確立–ベンチマークデータセットの提供–ベースとなるパイプラインでの実験

• ポータルサイトも運営

– http://www.visualqa.org/–国際コンペティションも開催

[Antol+, ICCV 2015]

What color are her eyes?What is the mustache made of?

VQA DatasetAMT で質問と回答を収集• 10万超の実画像、 3万超のアニメ調画像• 計 70万弱の質問＋それぞれ 10 の模範回答

VQA=多クラス分類問題

表現ベクトル通常のクラス識別

質問文What objects arefound on the bed?

応答bed sheets, pillow

画像画像特徴量

質問特徴量

統合された表現ベクトル

その後の展開

「統合された表現ベクトル」の工夫

• VQA [Antol+, ICCV 2015] ：そのまま直列に並べる

• 「和」グループ例 Attention で重みづけ和をとった画像特徴と質問特徴を単純に足す [Xu+Saenko, ECCV 2016]

• 「積」グループ例双線形積とフーリエ変換を組み合わせる[Fukui+, EMNLP 2016]

• 「和」と「積」のハイブリッド例要素毎の積と要素毎の和を直列に並べる[Saito+, ICME 2017]

𝑧 𝐼+𝑄=¿𝑥𝐼𝑥𝑄

𝑥𝐼 𝑥𝑄

𝑥𝐼 𝑥𝑄𝑧 𝐼+𝑄=¿

𝑧 𝐼+𝑄=¿

𝑧 𝐼+𝑄=¿𝑥𝐼 𝑥𝑄𝑥𝐼 𝑥𝑄

VQA Challengeコンペティション参加チームの解答例から

Q: What is the woman holding?GT A: laptopMachine A: laptop

Q: Is it going to rain soon?GT A: yesMachine A: yes

VQA Challengeコンペティション参加チームの解答例から

Q: Why is there snow on one side of the stream and clear grass on the other?GT A: shadeMachine A: yes

Q: Is the hydrant painted a new color?GT A: yesMachine A: no

視覚・言語融合の最前線 5キャプションからの画像生成

キャプションを入力して画像を生成

文から鮮明な画像の生成を実現↑難しいタスク（下は [Mansimov+, ICLR 2016] の例）

※ 画像の切り貼りは以前から [Hays+Efros, SIGGRAPH 2007]

文からの画像生成＝条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

　　　　　　はお前が生成したな！

文からの画像生成＝条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

学習が進むと：

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

むむむ…

文で生成結果を変えるには

Generator と Discriminator に文を加える

・自然な画像・文に沿った画像を生成しようとする

・不自然な画像・文に合わない画像を識別しようとする

生成できた画像の例

• 鳥 (CUB)/ 花 (Oxford-102) データセット–約 1万の鳥 / 花画像と 5 キャプション / 画像– 200種類の鳥 /102種類の花

A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch

Bright droopy yellow petals with burgundy streaks, and a yellow stigma

その後の展開

StackGAN [Zhang+, 2016]

• 2段階の GAN からなるモデル• 1段目でぼやっとした画像を生成、 2段目で高解像 +詳細

化






[Zhang+, 2016]






[Zhang+, 2016]

鳥 / 花に特化したデータセットでの結果→ 一般的な画像を生成するにはより一層のブレイクスルーが必要

まとめ

• Deep Learning による視覚・言語融合を俯瞰1. 画像キャプション生成2. 動画キャプション生成3. 言語横断4. 画像に関する質問への応答5. キャプションからの画像生成

• Deep Learning の貢献– 上記研究課題自体は Deep Learning 以前も存在– 画像、動画、自然言語処理技術の共通化– 認識と生成の精緻化

視覚 × 言語の新たなステージへ

deep learning による視覚×言語融合の最前線

Technology