phrase linguistic classification and generalization for improving statistical machine translation

17
Phrase linguistic classification and generalization for improving statistical machine translation Hiroshi Matsumoto

Upload: hiroshi-matsumoto

Post on 15-Jul-2015

77 views

Category:

Engineering


3 download

TRANSCRIPT

Page 1: Phrase linguistic classification and generalization for improving statistical machine translation

Phrase linguistic classification and generalization for improving statistical

machine translation

Hiroshi Matsumoto

Page 2: Phrase linguistic classification and generalization for improving statistical machine translation

紹介文献

• De Gispert, Adrià.

• "Phrase linguistic classification and generalization for improving statistical machine translation."

• Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005.

Page 3: Phrase linguistic classification and generalization for improving statistical machine translation

概要

• 動詞(複合動詞)の形態素解析の情報をSMTに利用

• 活用された動詞/複合形態の動詞は同じ確率分布

• インスタンス・モデルでソースの動詞形態からターゲットの動詞形態を選択する

• 未定義動詞形態の汎化手法の提案

• 英ス翻訳(より複雑な活用)

Page 4: Phrase linguistic classification and generalization for improving statistical machine translation

一般式

T = (Ei, Fj) : 汎化クラスのペア

Page 5: Phrase linguistic classification and generalization for improving statistical machine translation

式の意味

• フレーズ翻訳・モデル

–分類データに基づく

• インスタンス・モデル

–各ターゲット・インスタンスに確率付与

Page 6: Phrase linguistic classification and generalization for improving statistical machine translation

インスタンス・モデル

• インスタンスとそれがもつソース・フレーズを共通にもつ全てのタプルとの相対頻度

Page 7: Phrase linguistic classification and generalization for improving statistical machine translation

未定義語の汎化

• 未定義語:

–テスト・セットの多くの動詞形態は学習データに出現しない

• 動詞の主辞の見出し語で分類

–見出し語が学習済み(インスタンスの存在):

• ターゲット・フレーズに翻訳

– インスタンス・モデル・確率存在しない

• 汎化手法に従う

Page 8: Phrase linguistic classification and generalization for improving statistical machine translation

• 以下の文をスペイン語翻訳

“we would have payed it”

• 既知情報:– T1 ( V[pay], pagar)

• I would have payed | habria pagado

– T2 ( V[pay], hacer )• * would have payed | ------

– T3 ( V[pay] it, lo pagar)• I would have payed it | lo habria pagado

Page 9: Phrase linguistic classification and generalization for improving statistical machine translation

• 既知の例文の人称をソース側の人称に揃えて様々なインスンタンスの生成

• 出現回数が新規翻訳候補に重み付けに対応

• 新しい形態に対してのインスタンス・確率になる

Page 10: Phrase linguistic classification and generalization for improving statistical machine translation

インスタンス・確率

Page 11: Phrase linguistic classification and generalization for improving statistical machine translation

Extended Generalization

• 先の汎化手法では1度でも出現する事例にも結びつく

• 他の翻訳確率の高いものを無視してしまう

• そこで、汎化事例を全探索させる

Page 12: Phrase linguistic classification and generalization for improving statistical machine translation

実験&結果

Page 13: Phrase linguistic classification and generalization for improving statistical machine translation

コーパス

• the parallel corpus developed in the framework of the LC-STAR project

–旅行案内用の発話システムのためのスクリプト

–予約スケジュール

–旅行プラン

Page 14: Phrase linguistic classification and generalization for improving statistical machine translation

コーパス統計情報

Page 15: Phrase linguistic classification and generalization for improving statistical machine translation

汎化情報

Page 16: Phrase linguistic classification and generalization for improving statistical machine translation

アライメント結果

Page 17: Phrase linguistic classification and generalization for improving statistical machine translation

翻訳結果