snlp2016 kameko
TRANSCRIPT
2016/09/12
東大 鶴岡研
D2 亀甲博貴
Multimodal Pivots for Image Caption TranslationJulian Hitschler, Shigehiko Schamoni and Stefan Riezler
ACL 2016
やりたいこと
/ 1522016/09/12 第8回最先端NLP勉強会
(DE) Ein Masten mit zwei Ampeln für Autofahrer.
(EN) a mast with two lights for drivers.
a pole with two lights for drivers.
翻訳
(DE) Masten (名詞)
1. posts
2. poles
3. masts
やりたいこと
/ 1532016/09/12 第8回最先端NLP勉強会
(DE) Ein Masten mit zwei Ampeln für Autofahrer.
(EN)
a pole with two lights for drivers.
翻訳 この画像のキャプション!
画像のキャプションを対象にSMTの精度を上げたい!
手法の概要
•画像検索を用いた翻訳候補のリランキング• 従来のSMTで翻訳
• 翻訳文+入力画像と近いキャプション付き画像の検索
• 検索した画像を使って候補文をリランキング
•提案手法によってBLEUが1ポイント向上
2016/09/12 第8回最先端NLP勉強会 / 154
画像データベースからの検索Target Side Retrieval (TSR)
•対象の画像𝑖と翻訳候補𝑁𝑓𝑖に近いキャプション付き画像を検索•テキストベースTSR
• Convolutional Neural Networkを用いたMultimodal TSR
•人手で付けられたカテゴリ情報を利用したTSR• 画像情報の効果を見るため
2016/09/12 第8回最先端NLP勉強会 / 155
テキストベースTSR
𝑆𝑇𝑋𝑇 𝑚,𝑁𝑓𝑖
= 𝑍𝑚
𝑛∈𝑁𝑓𝑖
𝑤𝑛∈𝑡𝑜𝑘 𝑛
𝑤𝑚∈𝑡𝑦𝑝 𝑚
𝛿 𝑤𝑚, 𝑤𝑛 𝑖𝑑𝑓 𝑤𝑚
𝑚 ∈ 𝐶: データベース𝐶中のキャプション・画像ペア𝑁𝑓𝑖 : 翻訳候補リスト 𝑛: 翻訳候補文𝑡𝑜𝑘(𝑛): 𝑛中のトークン𝑡𝑦𝑝(𝑚): 𝑚のキャプション中のユニークなトークン
𝑍𝑚 =1
𝑡𝑦𝑝 𝑚: 正規化項
2016/09/12 第8回最先端NLP勉強会 / 156
1 if 𝑤𝑚 = 𝑤𝑛 else 0
CNNを用いたTSR
𝑆𝐶𝑁𝑁 𝑚,𝑁𝑓𝑖 , 𝑖
= 𝑆𝑇𝑋𝑇 𝑚,𝑁𝑓𝑖 𝑒
−𝑏𝑣 𝑖𝑚,𝑖 ,
0
𝑣 𝑖𝑚, 𝑖 < 𝑑
𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒𝑖𝑚: 𝑚の画像𝑣 𝑖𝑚, 𝑖 → [0,∞): 画像の距離• 小さいほど近い画像• VGG16 [Simonyan and Zisserman, 2015]の最後から2番目の層で各画像をベクトル化ベクトルのユークリッド距離で定義
2016/09/12 第8回最先端NLP勉強会 / 157
カテゴリ情報を利用したTSR
𝑆𝐻𝐶𝐴 𝑚,𝑁𝑓𝑖 , 𝑖
= 𝛿 𝑐𝑎𝑡 𝑖𝑚 , 𝑐𝑎𝑡 𝑖 𝑆𝑇𝑋𝑇(𝑚,𝑁𝑓𝑖)
𝑐𝑎𝑡(𝑖): 人手で付けられたカテゴリセット
• 91種類のラベル
2016/09/12 第8回最先端NLP勉強会 / 158
候補文のスコアリング
𝐹 𝑟,𝑀𝑓𝑖
= 𝑍𝑀𝑓𝑖
𝑚∈𝑀𝑓𝑖
𝑤𝑚∈𝑡𝑦𝑝 𝑚
𝑤𝑟∈𝑡𝑜𝑘 𝑟
𝛿 𝑤𝑚, 𝑤𝑟 𝑖𝑑𝑓 𝑤𝑚
𝑟: 翻訳候補
𝑍𝑀𝑓𝑖: 正規化項
𝑒𝑖 = argmax𝑟∈R𝑓𝑖 𝑑𝑟 + 𝜆𝐹(𝑟,𝑀𝑓𝑖)
2016/09/12 第8回最先端NLP勉強会 / 159
𝑑𝑟: SMTのデコーダのスコア
ハイパーパラメータ
2016/09/12 第8回最先端NLP勉強会 / 1510
Model 𝒌𝒏 𝒌𝒎 𝒌𝒓
TSR-TXT 300 500 5
TSR-CNN 300 300 5
TSR-HCA 300 500 5
𝑘𝑛 : 画像検索を行うための翻訳候補数𝑘𝑚: 画像検索によって取り出す画像数𝑘𝑟 : 翻訳結果出力のための翻訳候補数
データセット
2016/09/12 第8回最先端NLP勉強会 / 1511
画像 キャプション 言語
Dev. 250 250 DE-EN
Dev. Test 250 250 DE-EN
Test 500 500 DE-EN
Retrieval (𝐶) 81,822 409,110 EN
画像/英語キャプション:MS COCOデータセット• ランダムに1文だけ取り出すドイツ語キャプション:ネイティブスピーカーによる英語キャプションの翻訳Retrieval:上の1,000画像中に含まれないデータ
実験
•ベースライン•階層的フレーズベースSMT[Chiang, 2007]
• Out-of-Domain:•ニューステキストコーパス
• In-Domain•キャプションのパラレルコーパスを追加• 29,000文• Flicker30k(MS COCOと違うが似てる)•提案手法のSMT部分はこれ
2016/09/12 第8回最先端NLP勉強会 / 1512
結果
2016/09/12 第8回最先端NLP勉強会 / 1513
Out-of-Domainベースラインは低いIn-Domainベースラインと比較してTSR-CNNはBLEU,METEOR,編集距離全てで指標が良い画像の情報が効いている
𝑝𝑐 , 𝑝𝑡, 𝑝𝑑 , 𝑝𝑜はそれぞれ対応する指標との有意水準
キャプション生成とみなしたときの精度の比較はどうか?• 画像だけ文 より上がってほしい
人手での評価
• 169 / 500でIn-DomainベースラインとTSR-CNNが違う出力
2016/09/12 第8回最先端NLP勉強会 / 1514
a+: TSR-CNNの方が正確f+: TSR-CNNの方が流暢
a-: ベースラインの方が正確f-: ベースラインの方が流暢
主観評価でも提案手法の方がよい
まとめ
•画像のキャプション翻訳に画像の情報を用いて精度向上• IRの手法を応用したリランキング
•画像の情報は今回のようなタスクには有益
•今後の展望• NMTに画像の情報を入れて精度あがらないか?
2016/09/12 第8回最先端NLP勉強会 / 1515