最先端nlp勉強会 context gates for neural machine translation
Post on 21-Jan-2018
256 Views
Preview:
TRANSCRIPT
読む人: 慶應義塾大学大学院
山本眞大
Context Gates for Neural Machine Translation
最先端NLP勉強会
Zhaopeng Tu, Yang Liu, Zhengdong Lu, Xiaohua Liu, Hang Li (TACL2017)
※基本的に図表は原論文からの引用です。
概要 1
• NMTにおいて、sourceとtargetのcontextが
adequacyとfluencyにどう影響するかを調査
• sourceのcontext: adequacyに影響
• targetのcontext: fluencyに影響adequacy: sourceの単語が正確に翻訳できているか
fluency : 単語のつながりの自然さ
• (直感的にも…)
• 内容語を生成する際: sourceのcontextを参照すべき
• 機能語を生成する際: targetのcontextを参照すべき
• 既存のNMT: 各contextを均一に扱う
→ sourceとtargetのcontextを動的に参照するための
gate (context gates)を提案
Neural Machine Translation 2
• 翻訳確率
• i番目の単語の生成確率
入力系列出力系列
Encoderの情報Decoderの隠れ層
線形変換を行った後、sofrmax関数を適用する
Neural Machine Translation 3
• i番目のデコーダの隠れ層
単語ベクトルRNNtarget context source context
Source & Target Contextの影響の調査 4
• 目的: sourceとtargetのcontextが
adequacyとfluencyに影響するかを調査
• 方法:デコーダの隠れ層の計算方法を変更
• 一般的な計算方法
• 今回の計算方法
target context source contextスカラー値
スカラー値
Source & Target Contextの影響の調査 5
• 定性的な調査
(a, b) = (1.0, 0.5)
Fluencyが低い
(a, b) = (0.5, 1.0)
Adequacyが低い
Source & Target Contextの影響の調査 6
• 翻訳の長さについての調査
• targetの割合を減少
→ 長い文が生成されやすい
• sourceの割合を減少
→ 短い文が生成されやすい
Source & Target Contextの影響の調査 7
• AdequacyとFluencyに関する調査
• sourceの割合を減少
→ Adequecyが減少
• targetの割合を減少
→ Fluencyが減少
+ Adequecyも減少
なぜ?
・繰り返しによる生成長の限界
Context Gatesを導入したNMT 8
• Context gatesの基本的な構成
• 各contextをどの程度利用するか計算 ( )
• 各context と を要素毎に乗算
• sourceのみ: source
• targetのみ : target
• 両方 : both
Context Gatesを導入したNMT 9
• source: sourceのcontextと を要素毎に乗算
※一般的な計算方法
要素積
Context Gatesを導入したNMT 10
• target: targetのcontextと を要素毎に乗算
※一般的な計算方法
Context Gatesを導入したNMT 11
• both: 両方のcontextと を要素毎に乗算
※一般的な計算方法
実験 12
• 中英翻訳
• LDCコーパス (1.25M 対訳対)
• 実験内容
• 翻訳の質の評価 (BLEU, 主観)
• アライメントの質の評価
• ネットワーク構造の分析
• 文長の影響の調査
• 比較手法
• Moses: SMT
• GroundHog: NMT
• GroundHog-Coverge: 被覆を導入したNMT
実験 13
• 翻訳の質の評価: BLEUによる評価
• #2-4: パラメータを減らしつつ、GRUと同じくらいの性能
• #4-7: 提案手法による性能の向上、bothが一番良い性能
• #1, 8-9: 提案手法による性能の向上、SMTよりも高い性能
実験 14
• 翻訳の質の評価: 主観評価
• ランダム選択した200文を2名の主観で評価
• 出力された2文を見てどちらが良いか判断
• 結果
• Adequacy: 30%良, 52%同じ, 18%悪
• Fluency : 29%良, 52%同じ, 19%悪
実験 15
• アライメントの質の評価
• GroundHogにcontext gateを加えても良くならない
• 被覆の概念を導入したモデルに加えると良くなる
※低いほうが良い
実験 16
• アライメントの質の評価
実験 17
• ネットワーク構造の分析
• #2-3: 要素積により性能が向上
• #3-4: 両方参照したほうがいい
• #4-5: Encoderの情報を使ったほうがいい
• #5-6: 1個前に生成された単語の情報は有用
実験 18
• 文長の影響の調査
• 長い文についても、GroundHogほど精度が落ちない
まとめ 19
• 各contextがadequacyとfluencyにどう影響するか調査
• source context: adequacyに影響
• target context : fluencyに影響
• context gateを提案
• 動的に各contextの影響をコントロール可能
top related