11,001 new features for statistical machine translation
DESCRIPTION
11,001 New Features for Statistical Machine Translation. David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 简介. 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1 - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/1.jpg)
11,001 New Features for Statistical Machine
Translation
David Chiang, Kevin Knight, Wei Wang
报告人:李贤华2009.11.12
![Page 2: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/2.jpg)
主要内容 简介 MIRA 训练 特征选择 实验结果 分析讨论
![Page 3: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/3.jpg)
主要内容简介 MIRA 训练 特征选择 实验结果 分析讨论
![Page 4: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/4.jpg)
简介 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1
添加的特征多为句法系统才能使用的特征,突出句法系统的优势。
相比 MERT , MIRA 对于多特征调参更佳。
![Page 5: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/5.jpg)
Baseline
Hiero:
串到串翻译系统, 12 个特征,用 MERT 训练得到权重
句法系统:串到树翻译系统, 25 个特征,用 MERT 训
练得到权重
![Page 6: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/6.jpg)
主要内容 简介MIRA训练 特征选择 实验结果 分析讨论
![Page 7: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/7.jpg)
MIRA 训练将新特征加入线性模型,用 MIRA 训练。e :输出串 h(e): e 的特征向量 w: 特征权重循环如下:1. 选择一组输入句子 f1…fm ,解码2. 对于每个输入句子,选择其 10-best3. 对每个输入句子,选择一个 oracle 翻译,
设
![Page 8: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/8.jpg)
4. 对于每一个候选翻译,计算损失
5. 更新 w 至 w’ , w’ 最小化:
对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。
![Page 9: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/9.jpg)
主要内容 简介 MIRA 训练特征选择 实验结果 分析讨论
![Page 10: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/10.jpg)
特征选择 Discount feature
有许多计数为 1 的规则被选中,说明其概率被高估了
使用特征 count 来奖励或者惩罚规则,特征值和规则的计数有关
![Page 11: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/11.jpg)
目标端特征 Rule overlap features 规则之间有交点。有些非终结符作为交点
时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。
![Page 12: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/12.jpg)
Bad single-level rewrite对于一些使用范围很小的有问题的规则进行
惩罚,通过对开发集的观察,得到以下规则需要惩罚:
PP->VBN NP-CPP-BAR->NP-C INVP->NP-C PPCONJP->RB IN
![Page 13: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/13.jpg)
Node count features
对于树中出现的非终结符计数,以免某非终结符出现过多或过少
Insertion features
有些规则会在英文端插入一些单词。对于每一个最可能出现在插入规则中的单词
一个特征。
![Page 14: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/14.jpg)
特征选择 源端特征: Soft syntactic constraints
软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则
![Page 15: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/15.jpg)
Structural distortion features
设 S 为非终结符覆盖的源语言单词个数, R为是否要调序, P(R|S) 可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。
![Page 16: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/16.jpg)
主要内容 简介 MIRA 训练 特征选择实验结果 分析讨论
![Page 17: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/17.jpg)
实验结果 使用了 260m 词的汉英双语语料。 对于句法系统,重现了 Collins 的 parser ,
以对英语部分产生句法树 句法规则的抽取是在 65m 的子训练集上
完成的 对于 Hiero ,两个非终结符的规则在 38m
子集上抽取,其余规则在训练集其余部分抽取
![Page 18: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/18.jpg)
训练了 3 个 5 元语言模型 1-> 在整个英文语料上训得,用于两个系
统 2-> 用 10 亿词训得,用于句法系统 3-> 用 20 亿词训得,用于 Hiero 所有语言模型都用 KN 平滑算法
![Page 19: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/19.jpg)
开发集: 2010 个句子 测试集: 1994 个句子 从 NIST2004 , 2005 及 GALE program
抽取的新闻语料。 Hiero 用了源端特征,句法系统用了目标
端特征,两个系统都用了折扣特征。
![Page 20: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/20.jpg)
![Page 21: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/21.jpg)
主要内容 简介 MIRA 训练 特征选择 实验结果分析讨论
![Page 22: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/22.jpg)
分析
Discount feature:
+ 表示惩罚,- 表示奖励。
![Page 23: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/23.jpg)
Word insertion feature:
Be 动词, a+ the,.,,-
![Page 24: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/24.jpg)
Rule-overlap feature
![Page 25: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/25.jpg)
Weights for generated English nonterminals
![Page 26: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/26.jpg)
结论 1. 新特征即使在顶级翻译系统上也能有所
作为 2.MIRA 优于 MERT 3. 句法系统能利用在其他系统中无法使用
的特征,句法系统和 MIRA 是一个强大的组合
![Page 27: 11,001 New Features for Statistical Machine Translation](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813a3f550346895da22aca/html5/thumbnails/27.jpg)
相关论文:
1.Online large-margin training of syntactic and structural translation features
2.minimum error rate training in statistical machine translation