snlp2016 kameko

2016/09/12

東大鶴岡研

D2 亀甲博貴

Multimodal Pivots for Image Caption TranslationJulian Hitschler, Shigehiko Schamoni and Stefan Riezler

ACL 2016

やりたいこと

/ 1522016/09/12 第8回最先端NLP勉強会

(DE) Ein Masten mit zwei Ampeln für Autofahrer.

(EN) a mast with two lights for drivers.

a pole with two lights for drivers.

翻訳

(DE) Masten (名詞)

1. posts

2. poles

3. masts

やりたいこと

/ 1532016/09/12 第8回最先端NLP勉強会

(DE) Ein Masten mit zwei Ampeln für Autofahrer.

(EN)

a pole with two lights for drivers.

翻訳この画像のキャプション！

画像のキャプションを対象にSMTの精度を上げたい！

手法の概要

•画像検索を用いた翻訳候補のリランキング• 従来のSMTで翻訳

• 翻訳文+入力画像と近いキャプション付き画像の検索

• 検索した画像を使って候補文をリランキング

•提案手法によってBLEUが1ポイント向上

2016/09/12 第8回最先端NLP勉強会 / 154

画像データベースからの検索Target Side Retrieval (TSR)

•対象の画像𝑖と翻訳候補𝑁𝑓𝑖に近いキャプション付き画像を検索•テキストベースTSR

• Convolutional Neural Networkを用いたMultimodal TSR

•人手で付けられたカテゴリ情報を利用したTSR• 画像情報の効果を見るため

2016/09/12 第8回最先端NLP勉強会 / 155

テキストベースTSR

𝑆𝑇𝑋𝑇 𝑚,𝑁𝑓𝑖

= 𝑍𝑚

𝑛∈𝑁𝑓𝑖

𝑤𝑛∈𝑡𝑜𝑘 𝑛

𝑤𝑚∈𝑡𝑦𝑝 𝑚

𝛿 𝑤𝑚, 𝑤𝑛 𝑖𝑑𝑓 𝑤𝑚

𝑚 ∈ 𝐶: データベース𝐶中のキャプション・画像ペア𝑁𝑓𝑖 : 翻訳候補リスト 𝑛: 翻訳候補文𝑡𝑜𝑘(𝑛): 𝑛中のトークン𝑡𝑦𝑝(𝑚): 𝑚のキャプション中のユニークなトークン

𝑍𝑚 =1

𝑡𝑦𝑝 𝑚: 正規化項

2016/09/12 第8回最先端NLP勉強会 / 156

1 if 𝑤𝑚 = 𝑤𝑛 else 0

CNNを用いたTSR

𝑆𝐶𝑁𝑁 𝑚,𝑁𝑓𝑖 , 𝑖

= 𝑆𝑇𝑋𝑇 𝑚,𝑁𝑓𝑖 𝑒

−𝑏𝑣 𝑖𝑚,𝑖 ,

0

𝑣 𝑖𝑚, 𝑖 < 𝑑

𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒𝑖𝑚: 𝑚の画像𝑣 𝑖𝑚, 𝑖 → [0,∞): 画像の距離• 小さいほど近い画像• VGG16 [Simonyan and Zisserman, 2015]の最後から2番目の層で各画像をベクトル化ベクトルのユークリッド距離で定義

2016/09/12 第8回最先端NLP勉強会 / 157

カテゴリ情報を利用したTSR

𝑆𝐻𝐶𝐴 𝑚,𝑁𝑓𝑖 , 𝑖

= 𝛿 𝑐𝑎𝑡 𝑖𝑚 , 𝑐𝑎𝑡 𝑖 𝑆𝑇𝑋𝑇(𝑚,𝑁𝑓𝑖)

𝑐𝑎𝑡(𝑖): 人手で付けられたカテゴリセット

• 91種類のラベル

2016/09/12 第8回最先端NLP勉強会 / 158

候補文のスコアリング

𝐹 𝑟,𝑀𝑓𝑖

= 𝑍𝑀𝑓𝑖

𝑚∈𝑀𝑓𝑖

𝑤𝑚∈𝑡𝑦𝑝 𝑚

𝑤𝑟∈𝑡𝑜𝑘 𝑟

𝛿 𝑤𝑚, 𝑤𝑟 𝑖𝑑𝑓 𝑤𝑚

𝑟: 翻訳候補

𝑍𝑀𝑓𝑖: 正規化項

𝑒𝑖 = argmax𝑟∈R𝑓𝑖 𝑑𝑟 + 𝜆𝐹(𝑟,𝑀𝑓𝑖)

2016/09/12 第8回最先端NLP勉強会 / 159

𝑑𝑟: SMTのデコーダのスコア

ハイパーパラメータ

2016/09/12 第8回最先端NLP勉強会 / 1510

Model 𝒌𝒏 𝒌𝒎 𝒌𝒓

TSR-TXT 300 500 5

TSR-CNN 300 300 5

TSR-HCA 300 500 5

𝑘𝑛 : 画像検索を行うための翻訳候補数𝑘𝑚: 画像検索によって取り出す画像数𝑘𝑟 : 翻訳結果出力のための翻訳候補数

データセット

2016/09/12 第8回最先端NLP勉強会 / 1511

画像キャプション言語

Dev. 250 250 DE-EN

Dev. Test 250 250 DE-EN

Test 500 500 DE-EN

Retrieval (𝐶) 81,822 409,110 EN

画像/英語キャプション：MS COCOデータセット• ランダムに1文だけ取り出すドイツ語キャプション：ネイティブスピーカーによる英語キャプションの翻訳Retrieval：上の1,000画像中に含まれないデータ

実験

•ベースライン•階層的フレーズベースSMT[Chiang, 2007]

• Out-of-Domain:•ニューステキストコーパス

• In-Domain•キャプションのパラレルコーパスを追加• 29,000文• Flicker30k（MS COCOと違うが似てる）•提案手法のSMT部分はこれ

2016/09/12 第8回最先端NLP勉強会 / 1512

結果

2016/09/12 第8回最先端NLP勉強会 / 1513

Out-of-Domainベースラインは低いIn-Domainベースラインと比較してTSR-CNNはBLEU，METEOR，編集距離全てで指標が良い画像の情報が効いている

𝑝𝑐 , 𝑝𝑡, 𝑝𝑑 , 𝑝𝑜はそれぞれ対応する指標との有意水準

キャプション生成とみなしたときの精度の比較はどうか？• 画像だけ文より上がってほしい

人手での評価

• 169 / 500でIn-DomainベースラインとTSR-CNNが違う出力

2016/09/12 第8回最先端NLP勉強会 / 1514

a+: TSR-CNNの方が正確f+: TSR-CNNの方が流暢

a-: ベースラインの方が正確f-: ベースラインの方が流暢

主観評価でも提案手法の方がよい

まとめ

•画像のキャプション翻訳に画像の情報を用いて精度向上• IRの手法を応用したリランキング

•画像の情報は今回のようなタスクには有益

•今後の展望• NMTに画像の情報を入れて精度あがらないか？

2016/09/12 第8回最先端NLP勉強会 / 1515

snlp2016 kameko

Engineering