summary: a sense-based translation model for statistical machine translation

22
文献紹介 長岡技術科学大学修士1年 松本宏

Upload: hiroshi-matsumoto

Post on 03-Jul-2015

101 views

Category:

Education


4 download

DESCRIPTION

A Sense-Based Translation Model for Statistical Machine Translation

TRANSCRIPT

Page 1: Summary: A Sense-Based Translation Model for Statistical Machine Translation

文献紹介 長岡技術科学大学修士1年

松本宏

Page 2: Summary: A Sense-Based Translation Model for Statistical Machine Translation

紹介文献 •  Title: A Sense-Based Translation Model for Statistical Machine Translation

•  Author: Xiong, Deyi and Zhang, Min

•  Booktitle: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics Volume 1: Long Papers

•  Year: 2014

•  Pages: 1459--1469

Page 3: Summary: A Sense-Based Translation Model for Statistical Machine Translation

WSD in SMT

•  多義語はNLPタスクにおいて問題であり、統計機械翻訳においてもネックになっている

•  語義曖昧性解消(WSD)による単語の曖昧性解消が文脈に適した訳選択へとつながると考えられる

Page 4: Summary: A Sense-Based Translation Model for Statistical Machine Translation

WSD vs WSI •  語義推定(WSI)は自動で周辺文脈より語義を推定するタスク

•  大きな違いは

•  WSDは定義済みの中から予測する

•  WSIは語義定義済みデータを利用しないで類推する

•  この2つは

•  WSDを分類問題

•  WSIをクラスタリング問題

Page 5: Summary: A Sense-Based Translation Model for Statistical Machine Translation

目的

•  SMTへ語義の直接統合の効果性を調べる

•  WSIベース・モデルとWSDの改良理論の優劣性

Page 6: Summary: A Sense-Based Translation Model for Statistical Machine Translation

提案手法

Page 7: Summary: A Sense-Based Translation Model for Statistical Machine Translation

Architecture of the SMT

Page 8: Summary: A Sense-Based Translation Model for Statistical Machine Translation

LDA

•  Latent Dirichlet Allocation (LDA)は、データの一部が類似している理由を説明未観測のグループによって説明されることを可能にする生成モデルである(en.wikipedia.org)

•  トピック・モデルとして扱い、一つの文書の中に複数のトピックが潜在していることを仮定している

Page 9: Summary: A Sense-Based Translation Model for Statistical Machine Translation

LDA

文書

文書内N単語

トピック トピックZに対する単語

文書内 トピック分布

Page 10: Summary: A Sense-Based Translation Model for Statistical Machine Translation

擬似化

以下の例のように周辺単語数を5として見た時

前後5単語を含む文を擬似文書とする

Page 11: Summary: A Sense-Based Translation Model for Statistical Machine Translation

WSI

擬似文書

隣接連語

意味クラスタ 着目する単語 意味分布

Page 12: Summary: A Sense-Based Translation Model for Statistical Machine Translation

Architecture of the SMT

Page 13: Summary: A Sense-Based Translation Model for Statistical Machine Translation

MaxEnt Classifier

Page 14: Summary: A Sense-Based Translation Model for Statistical Machine Translation

Sense-Based Translation Model

Page 15: Summary: A Sense-Based Translation Model for Statistical Machine Translation

実験

•  翻訳:中英翻訳

•  コーパス:LDC corpora

•  3.84M bilingual sentences

•  109.5M English tokens

•  96.9M Chinese tokens

•  Window-size: ±10-word

Page 16: Summary: A Sense-Based Translation Model for Statistical Machine Translation

評価 •  ベースラインは並び替えフレーズベースSMT

•  (Wu, 1997)

•  (Xiong et al., 2006)

•  BLEU値/NIST値

•  実験を三回行った平均値

Page 17: Summary: A Sense-Based Translation Model for Statistical Machine Translation

結果

Page 18: Summary: A Sense-Based Translation Model for Statistical Machine Translation
Page 19: Summary: A Sense-Based Translation Model for Statistical Machine Translation

窓枠サイズ効果

Page 20: Summary: A Sense-Based Translation Model for Statistical Machine Translation

翻訳結果

Page 21: Summary: A Sense-Based Translation Model for Statistical Machine Translation

翻訳結果

Page 22: Summary: A Sense-Based Translation Model for Statistical Machine Translation

おわり

•  文法情報を考慮したSMTは見たことある

•  語義を考慮したものは初見

•  意味クラスタ数をHDPによって扱っているが妥当なのか