基于树到串模型强化的层次短语...

14
39 2016 CHINESEJOURNAL OFCOMPUTERS Vol.39 No.4 Apr.2016 收稿日期20140808 在线出版日期20150722. 本课题得到国家自然科学基金61300097 61272376 61432013 )、 中国博士后科学基金 2013M530131 资助 1982 年生博士讲师主要研究方向为机器翻译自然语言处理 .Email xiaotong mail.neu.edu.cn. 朱靖波1973 年生博士教授主要研究领域为机器翻译自然语言处理 基于树到串模型强化的层次短语 机器翻译解码方法 朱靖波 东北大学信息科学与工程学院 沈阳 110819 文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法 其基本框架是把层次短 语模型作为基础模型而把树到串模型作为层次短语模型的补充增加翻译推导空间大小 文中重点研究了在该框 架下的统计机器翻译解码技术并提出了多种解码策略包括基于树的精确解码策略基于树的模糊解码策略和基 于串的解码策略 通过 NIST 汉英翻译任务上的实验结果显示文中所研究的方法可以十分有效地提升基线层次短 语系统的翻译性能比如在 newswire web 数据上分别提高了 1.3 1.2 BLEU 此外文中分析了若干影 响翻译性能的因素并给出了对比实验结果 关键词 统计机器翻译层次短语模型树到串模型规则抽取解码社会媒体社交网络自然语言处理机器翻译 中图法分类号 TP391 犇犗犐 10.11897 SP.J.1016.2016.00808 犗狀犇犲犮狅犱犻狀 狑犻狋犺犃狌 犿犲狀狋犲犱犎犻犲狉犪狉犮犺犻犮犪犾犘犺狉犪狊犲犅犪狊犲犱犜狉犪狀狊犾犪狋犻狅狀 犕狅犱犲犾狊犝狊犻狀 犜狉犲犲狋狅犛狋狉犻狀 犕狅犱犲犾狊 XIAO Tong ZHUJingBo 犆狅犾犾犲 犲狅 犐狀 狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犈狀 犻狀犲犲狉犻狀 犖狅狉狋犺犲犪狊狋犲狉狀犝狀犻狏犲狉狊犻狋 犛犺犲狀 犪狀 110819 犃犫狊狋狉犪犮狋 Westudydecodingmethodstoaugmentahierarchicalphrase basedMachineTranslation MT system withatree tostringmodelinthispaper.Inthisframeworkthehierarchicalphrase basedmodelisregardedasthebase model andthetree tostring modelisemployedtoenlarge thederivationspace.Inparticular wepresentseveraldecodingstrategies includingtree based exactdecoding tree basedfuzzydecodingandstringbaseddecoding.Weexperiment withour approachinastate ofthe artMTsystem ontheNIST MTevaluationdata.Experimentalresults showthatitoutperformsastrongbaselineover1.3and1.2BLEUpointsonthenewswireand webdatarespectively.Moreover weshowasystematiccomparisonofseveralfactorsthataffect thetranslationquality. 犓犲狔狑狅狉犱狊 statisticalmachinetranslation hierarchicalphrase based model tree tostringmodel ruleextraction decoding socialmedia socialnetworks naturallanguageprocessing machine translation 基于句法的统计机器翻译模型在最近十年中取 得了前所未有的发展 其中最成功的一类模型是基 于同步上下文无关文法SCFG 的层次短语模型 在该模型中由于翻译规则的抽取没有使用任何的 源语或者目标语语言学句法信息做约束因此可

Upload: others

Post on 10-Oct-2020

39 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

书书书

第39卷 第4期

2016年4月

计  算  机  学  报

CHINESEJOURNALOFCOMPUTERS

Vol.39 No.4

Apr.2016

 

收稿日期:20140808;在线出版日期:20150722.本课题得到国家自然科学基金(61300097,61272376,61432013)、中国博士后科学基金

(2013M530131)资助.肖 桐,男,1982年生,博士,讲师,主要研究方向为机器翻译、自然语言处理.Email:xiaotong@mail.neu.edu.cn.

朱靖波,男,1973年生,博士,教授,主要研究领域为机器翻译、自然语言处理.

基于树到串模型强化的层次短语

机器翻译解码方法

肖 桐 朱靖波(东北大学信息科学与工程学院 沈阳 110819)

摘 要 文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短

语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框

架下的统计机器翻译解码技术,并提出了多种解码策略,包括基于树的精确解码策略、基于树的模糊解码策略和基

于串的解码策略.通过NIST汉英翻译任务上的实验结果显示,文中所研究的方法可以十分有效地提升基线层次短

语系统的翻译性能,比如在newswire和web数据上分别提高了1.3和1.2个BLEU点.此外,文中分析了若干影

响翻译性能的因素,并给出了对比实验结果.

关键词 统计机器翻译;层次短语模型;树到串模型;规则抽取;解码;社会媒体;社交网络;自然语言处理;机器翻译

中图法分类号 TP391   犇犗犐号 10.11897/SP.J.1016.2016.00808

犗狀犇犲犮狅犱犻狀犵狑犻狋犺犃狌犵犿犲狀狋犲犱犎犻犲狉犪狉犮犺犻犮犪犾犘犺狉犪狊犲犅犪狊犲犱犜狉犪狀狊犾犪狋犻狅狀

犕狅犱犲犾狊犝狊犻狀犵犜狉犲犲狋狅犛狋狉犻狀犵犕狅犱犲犾狊

XIAOTong ZHUJingBo(犆狅犾犾犲犵犲狅犳犐狀犳狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犈狀犵犻狀犲犲狉犻狀犵,犖狅狉狋犺犲犪狊狋犲狉狀犝狀犻狏犲狉狊犻狋狔,犛犺犲狀狔犪狀犵 110819)

犃犫狊狋狉犪犮狋  WestudydecodingmethodstoaugmentahierarchicalphrasebasedMachineTranslation

(MT)systemwithatreetostringmodelinthispaper.Inthisframeworkthehierarchicalphrase

basedmodelisregardedasthebasemodel,andthetreetostringmodelisemployedtoenlarge

thederivationspace.Inparticular,wepresentseveraldecodingstrategies,includingtreebased

exactdecoding,treebasedfuzzydecodingandstringbaseddecoding.Weexperimentwithour

approachinastateoftheartMTsystemontheNIST MTevaluationdata.Experimentalresults

showthatitoutperformsastrongbaselineover1.3and1.2BLEUpointsonthenewswireand

webdatarespectively.Moreover,weshowasystematiccomparisonofseveralfactorsthataffect

thetranslationquality.

犓犲狔狑狅狉犱狊 statisticalmachinetranslation;hierarchicalphrasebasedmodel;treetostringmodel;

ruleextraction;decoding;socialmedia;socialnetworks;naturallanguageprocessing;machine

translation

1 引 言

基于句法的统计机器翻译模型在最近十年中取

得了前所未有的发展.其中最成功的一类模型是基

于同步上下文无关文法(SCFG)的层次短语模型[1].

在该模型中,由于翻译规则的抽取没有使用任何的

源语(或者目标语)语言学句法信息做约束,因此可

Page 2: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

以学习到数量巨大的翻译规则.为了把规则数量控

制在可接受的范围内,现在广泛的做法是在SCFG

规则抽取和使用阶段引入一些限制,比如:解码时

SCFG规则被应用的源语言跨度①不能超过一个阈

值(比如10个词);所有的非胶水规则都必须为词汇

化规则;所有规则中的变量个数最多不能超过两个;

所有规则的源语言端中的变量不能连续等.这些限

制使得层次短语系统可以进一步走向实用化,并且

也已经在很多任务中取得了不错的效果.但是,这在

一定程度上也削弱了层次短语系统处理长距离依赖

问题和复杂的句法成分调序问题的能力.

相比基于形式句法的层次短语模型,在机器翻

译中使用源语句法信息(即使用基于语言学句法的

翻译模型)能在很大程度上缓解上面所提到的问题.

比如,句法系统中常用的GHKM 规则抽取[23]使用

了源语(或者目标语)句法树信息来指导(树到串)翻

译规则的抽取.其中句法树信息的使用使得规则抽

取和翻译过程能够利用更多的语言学知识,从而使

翻译系统不需要像层次短语系统那样使用各种各样

的工程化的约束条件.比如,在GHKM 框架下,可

以去掉规则的源语言跨度约束;可以允许非词汇化

规则的引入;可以在规则的源语言端使用两个以上

的变量和连续的变量.此外,我们还可以使用句法信

息定义新的特征来鼓励翻译推导遵循句法约束的情

况.不过,GHKM框架也有一些严重的问题.比如,

翻译规则的质量在很大程度上受限于自动句法分析

性能的好坏;翻译规则的多样性和覆盖度很有限,许

多情况下翻译系统无法找到理想的规则.

针对以上问题,一种自然的解决方案就是在层

次短语系统中引入更多的源语言句法信息.有两类

方法:(1)在层次短语系统中引入句法特征.比如,

文献[45]使用句法软/硬约束来增加系统对源语言

句法合法性的敏感度,而文献[69]在SCFG规则中

加入句法标记使其能够在使用规则时考虑句法标记

的兼容性.不过,这些方法本质上仍然依赖于SCFG

规则抽取,因此无法避免前面提到的各种限制;

(2)第二类方法是利用系统融合的思想,将层次短

语和树到串系统进行融合,如使用联合解码技术[10]

在解码阶段同时使用层次短语规则和树到串翻译规

则生成翻译推导.也可以使用文献[11]中的技术,直

接在层次短语解码器中使用树到串翻译规则.

本文的工作基于上面提到的第二类方法.核心

内容是以文献[11]所描述的框架为基础,对多种树

到串规则在层次短语系统中进行集成的解码方法

进行研究.因此本文可以被看作是对文献[11]的进

一步深化,但是本文的工作与文献[11]有明显的区

别.相比文献[11],本文的主要贡献体现在如下两个

方面:

(1)本文对树到串规则在层次短语系统中集成

的解码策略进行了深入研究,并对模糊规则匹配、基

于串的规则匹配、基于树的规则匹配等解码问题进

行深入研究,提出了相应的解码策略.此外,本文对

不同解码策略进行了实验对比,最终发现使用二叉

化句法树和基于串的解码这种组合可以获得最大的

性能提升.

(2)本文通过实验进一步对比了多种源语言信

息在层次短语系统中的使用方法,包括源语言句法

软约束、句法结构硬约束等.此外,本文分析了这些

方法在系统性能提升方面存在的问题.进一步,本文

还分析了解码中各种规则的使用比例,并研究了树

到串模型训练数据规模对翻译结果的影响.以上这

些分析和讨论在文献[11]及相关工作中并未涉及.

本文将所提出的方法应用于NiuTrans开源统

计机器翻译系统.大规模汉英机器翻译实验显示:本

文的方法在NISTMT0812newswire和web数据

上能显著提高系统的翻译性能,BLEU值在两个类

型数据上分别能够提升1.3和1.2个点.

2 层次短语模型中集成树到串模型

为了方便对本文研究内容进行论述,本章对相

关背景技术进行了介绍,包括层次短语翻译模型和

树到串翻译模型的基本原理,以及在层次短语模型

中集成树到串模型的基础方法.

21 层次短语翻译模型

层次短语模型依赖同步上下文 无关文 法

(SCFG).同步上下文无关文法可以描述含有层次

结构的双语字符串的生成过程.形式上,同步上下文

无关文法被表示为一个规则系统〈犖,犠狊,犠狋,犚〉,

其中犖 表示一个非终结符号集合,犠狊和犠狋表示源

语言和目标语言终结符号(或者词汇)集合,犚表示

一个产生式集合.犚 中的每一个产生式对应一条

SCFG规则,形式为:犡→ 〈α,β,~〉,其中产生式

9084期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法

① 本文中,跨度是指一个句子中从某个词开始到另一个词结束所覆盖的连续词串.

Page 3: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

左手端的犡表示一个非终结符;右手端的α表示一

个源语言的终结符和非终结符序列,称作源语言端;

β表示一个目标语言的终结符和非终结符序列,

称作目标语言端;~表示α和β 中的非终结符的

一一对应关系.通常可以把~表示为非终结符的

下标.

概率化的同步上下文无关文法可以使用启发性

信息从经过词对齐的数据中自动获取[12].比如,可

以首先抽取初始翻译短语集合,之后利用这些初始

短语获取层次短语的翻译规则(即含有变量的翻译

规则).在获取SCFG规则之后,可以利用这些SCFG

规则对新句子进行解码,完成对未知句子的翻译.

图1给出了从一个经过词对齐的例句中抽取得到的

SCFG规则实例.其中,规则犺7,犺1和犺3对应了一个

翻译推导,能够覆盖整个双语句对.而层次短语模型

的解码问题也可以被当作句法分析来处理,也就是

使用SCFG的源语言端分析输入的句子,之后构建

一个SCFG的推导森林(或者一个超图结构),之后

利用翻译模型和语言模型计算推导得分,并在推导

森林中找到最优推导并输出.

图1 Hiero规则抽取(右上)及树到串规则抽取(右下)示例

在真实系统中,通常会引入一些约束条件来使

系统的解码过程能够在可接受的时间内完成,具体

包括:(1)在解码时限制一个层次短语规则可以被

应用的跨度大小,即跨度限制,通常为10;(2)规则

的阶数(规则允许的变量个数)的限制,通常最多不

超过两个;(3)规则源语言端的变量不能连续出现

(除胶水规则外);(4)规则必需为词汇化规则(除胶

水规则外)等.

22 树到串翻译模型

树到串翻译模型把翻译过程定义为从源语言句

法树到目标语词串的转化问题[1314].这个翻译过程

可以用一系列的树到串翻译规则表示.对于一条树到

串规则狉,可以将其表示为一个三元组〈狊狉,狋狉,~〉,其

中狊狉表示规则的源语言树片段,狊狉的叶子节点为终

结符或者变量(非终结符);狋狉表示规则的目标语终

结符和变量序列;~表示狊狉中的叶子变量和狋狉中的

变量之间的一一对应关系.比如

VP(VV(提高)狓1:NN)→increases狓1

就表示了一种树到串翻译规则,其中“VP(VV(提

高)狓1:犖犖)”为源语言句法树片段,“increases狓1”

为目标语串,两端的狓1表示变量应该相互对应.

树到串翻译规则的抽取通常是通过GHKM 方

法实现[23].GHKM方法的基本思想是利用词对齐

信息从源语言树和目标语串中抽取最小翻译规则,

之后利用这些最小翻译规则组装出更大的翻译规

则.比如,图1给出了利用GHKM 方法从一个词对

齐的源语言句法树和目标语串中抽取得到的若干树

到串翻译规则.

树到串翻译模型的最大优点在于:规则(及所有

变量)都遵循句法树约束,比如所有的变量都需覆盖

合法且完整的句法子树单元.因此,树到串翻译的解

码并不需要强制加入规则跨度的约束.此外,由于源

018 计  算  机  学  报 2016年

Page 4: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

语言句法树的使用,层次短语中关于变量个数、源语

言连续变量个数、规则必需词汇化等约束在树到串

翻译模型中都能够被消除.比如图1中的规则狉8具

有很好的源语言树结构,因为这种结构可以决定

NP和VP之间的调序.但是,在标准的层次短语系

统中由于这样的规则包含连续的源语言变量,因此

它们并不允许被使用.

23 树到串模型在层次短语模型中的集成

本文遵循文献[11]所提出的框架将树到串模型

集成到层次短语模型中.该方法的基本思想是:同时

使用 Hiero[12]和GHKM

[2]方法从双语数据中抽取

翻译规则,之后将 GHKM 方法抽取得到的(树到

串)翻译规则加入到层次短语系统中对基线SCFG

进行补充.注意,这个方法与传统的系统融合和混合

翻译模型有所不同[10,1516],它并不是简单地把不同

的模型(层次短语和树到串)等同视之,再对它们进

行融合,而是把层次短语模型作为基础模型,然后利

用(少量)树到串规则对其进行强化.实际上,就是利

用树到串模型的优点来帮助层次短语模型改进其缺

点,但并不是一种对称化的系统融合方法.图2给出

了这个方法的基本框架.在规则抽取阶段,该方法同

时使用 Hiero和GHKM 方法获取规则并得到一个

“更大”的SCFG,之后同时利用句子的词串和句法树

信息使用这些SCFG规则对新的句子进行解码.

图2 树到串模型在层次短语系统中集成的基本框架

如图2所示,本文所使用的方法需要同时进行

SCFG规则抽取和树到串规则抽取,这两类规则

可以分别使用标准的 Hiero规则抽取方法[12]和

GHKM规则抽取方法[23]获得.但是,树到串翻译规

则和SCFG规则具有不同的形式.因此,如果想在层

次短语系统中使用树到串翻译规则,就需要把它们

转化为SCFG规则.这样,在基于SCFG的解码器中

才可以间接地使用树到串翻译模型的信息.

由树到串规则到SCFG规则的转化非常直接:

对于一个给定的树到串翻译规则〈狊狉,狋狉,~〉,我们将

源语言端狊狉所对应的叶子节点序列作为生成的

SCFG规则的源语言端,并保持狋狉和~在SCFG规

则中不变.之后将规则中所有的句法标记替换为层

次短语系统所使用的句法标记(如 犡)就得到了

SCFG规则.由此可见,经过上述的转化后,每条树

到串翻译规则都会对应唯一的一条SCFG规则.因

此我们可以将原始的SCFG和对树到串翻译规则进

行上述转化后的结果进行合并,从而得到更大的

SCFG规则.

进一步,将合并得到的SCFG中的规则分为两

种类型的规则:类型1规则是可以由 Hiero抽取得

到的规则,也就是说所有基线层次短语系统中的规则

都是类型1规则.类型2规则是 Hiero无法抽取的

规则,但是可以由树到串翻译规则转化得到.比如在

图2中的规则狉8可以通过这种方式转化为如下规则

犡→〈对犡1犡2,犡2with犡1〉

由于这条规则包含连续的源语言端变量,因此它不

能被Hiero方法抽取到,但是可以通过使用GHKM

方法被抽取出来.

3 解码方法

31 基本框架

本文的重点是在文献[11]工作的基础上研究不

同解码策略对层次短语系统中集成树到串模型的影

响.为了确保文章论述的完整性,这里首先简要描述

1184期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法

Page 5: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

本文所使用的基本解码框架.

如第2节所述,在规则抽取之后,我们可以得到

一个合并后的SCFG规则集和一个树到串规则集,

其中每条树到串规则与SCFG规则集中的某一条规

则相对应.而解码器就是要利用这些规则完成对输

入句子的翻译.层次短语解码器通常可以被看作是

一种源语言的“分析”装置与目标语“生成”装置的组

合,也就是说层次短语解码器会利用翻译规则的源

语言端对输入的源语言句子进行匹配(对应“分析”

过程),之后才生成目标语译文(对应“生成”过程).

实现层次短语解码器通用的框架为:

(1)首先,用SCFG规则对输入的句子进行匹

配,并把可匹配的规则加入到相应的分析单元(或者

跨度)的规则列表上.

(2)之后,用自底向上的分析算法利用这些规

则构建一种超图,其中超图的每个边对应一条规则,

每一个节点对应一个分析单元(或者跨度).

(3)最后在超图上计算各种模型的得分,并输

出模型得分最高的一个或者多个翻译推导.

上述过程的第(2)步和第(3)步还可以使用剪枝

技术来提高系统运行的效率.实际上,对于当今的层

次短语系统和基于句法的系统,解码算法都遵循上

面所描述的框架.图2的下半部给出了该解码框架

的示例.其中,在解码的第(2)步和第(3)步,大多数

翻译系统都可以共享相同的算法,只是所使用的具

体剪枝方法和模型得分计算方式有所不同.而不同

系统的主要区别体现在第(1)步,即利用何种策略匹

配翻译规则.一般来说有两种基本策略可以使用:

①基于词串的规则匹配.这种方法只考虑了输

入句子的字符串信息,将翻译规则匹配到输入句子

的相应单词串上.比如图3(a)给出了一个基于词串

的规则匹配实例,其中整个匹配过程只参考规则源

语言端的字符串和输入词串,不考虑任何的句法结

构信息.这个过程可以被广泛地用于层次短语系统,

同时也可以在部分句法系统中使用.对句法翻译规

则(如树到串翻译规则)进行基于词串的规则匹配,

需要将翻译规则的源语言端转化为一种词串表现形

式,之后的过程与图3(a)所描述的过程完全一致.

图3 基于词串(a)和基于树(b)的匹配实例

②基于树的规则匹配.这种规则匹配方法只针

对规则源语言端有树结构的翻译模型,如树到串翻

译模型和树到树翻译模型.这种规则匹配方法要求

解码器的输入为句法树.之后检查规则的源语言端

是否与某个树片段相同,如果有可以匹配的树片段,

则称规则命中,之后可以把规则加入到树片段的根

节点所对应的分析单元(或者跨度)的规则列表中.

上述两种规则匹配策略各有优缺点:基于词串

的规则匹配简单直接,但是由于可能匹配的规则数

量巨大,解码器的运行效率相对较低;而基于树的规

218 计  算  机  学  报 2016年

Page 6: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

则匹配可以利用树结构过滤掉大量的不符合句法约

束的规则匹配结果,解码器速度较快,但是由于解码

空间受限,解码器的翻译效果通常不是非常理想.针

对以上问题,本文设计了多种面向SCFG规则和树

到串规则的规则匹配策略,下面进行详述.

32 规则匹配策略

3.2.1 基于词串和基于树的混合策略

这种策略是最简单直接的一种规则匹配策略,

在文献[11]中也有讨论.其基本思想是:用基于词串

的匹配处理所有 Hiero抽取能获取到的规则,即类

型1规则;用基于树的匹配处理所有 Hiero抽取无

法获取而树到串系统能够获取得到的规则,即类

型2规则.处理类型1规则时,只需要复用基线层次

短语解码器的规则匹配模块即可.唯一需要注意的

是,如果一条规则可以匹配一个子树片段所覆盖的

字符串,那么就可以移除系统的跨度限制.也就是

说,如果规则匹配符合源语言句法结构,我们就不考

虑任何规则匹配的跨度限制.处理类型2规则时,首

先利用每条类型2规则所对应的树到串规则对输入

句法树进行基于树的规则匹配,如果匹配成功就将

所对应的SCFG规则加入到相应的规则列表中.对

两种类型规则匹配结束后,整个解码流程直接复用

基线系统的相应模块即可.

3.2.2 基于词串和模糊匹配的混合策略

上述规则匹配方法的优点是简单直接.它在复

用基线系统的同时(处理类型1规则),可以使用十

分高效的基于树的匹配方法去处理额外的树到串翻

译规则.但是,基于树的匹配方法一般要求对树结构

进行严格匹配,即规则的源语言必须与某个子树完

全对应才表明匹配成功.由于句法结构的多样性和

句法分析结果中的错误,这种“精确”匹配的方式可

能会过滤掉一些可以生成很好翻译结果的规则,因

此我们考虑使用一种模糊的规则匹配方法[1719]来处

理类型2规则,而仍然复用基线系统来处理类型1

规则.

基于树的模糊匹配思想非常简单.给定一个规

则源语言端和一个树片段,我们可以忽略一些信息

进行匹配.具体来说有3个层次:

(1)句法标记泛化.这个方法就是把一些句法

标记泛化为一个通用的类别.在本文的工作中,我们

仅考虑将所有的名词短语和名词词性标记泛化为

NP,同时将动词短语和动词词性标记泛化为VP.这

样就可以使得更多的规则得到匹配,而不会因为仅

仅在词性标记上的小区别从而导致匹配失败.

(2)树结构泛化.这里我们可以直接使用文献

[18]和文献[19]中的思想,在进行树片段匹配的时

候忽略除边界节点以外的结构,也就是说只考虑树

片段的根和叶子节点,而忽略树的内部结构.这么做

的好处是可以在不改变句法分析结果的条件下使用

更加多样的树片段进行规则匹配,进而增加规则的

使用率.

(3)句法标记和树结构同时泛化,即同时考虑

上面两种泛化方法.

使用以上的模糊匹配策略可以更加灵活地对规

则进行匹配.比如,对于如下的树到串规则

VP(PP(P(对)狓1:NN)狓2:VV)→狓2with狓1

我们无法使用精确匹配的方式将其应用于图3(b)

所示的实例中,但是如果使用句法标记的泛化,我们

可以将规则中的 NN视为 NP,将 VV视为 VP,这

样就可以采用图3(b)所示的方式进行规则匹配.

3.2.3 基于词串的单一匹配策略

实际上3.2.1节和3.2.2节所讨论的方法的区

别仅在于是否使用模糊匹配来使用类型2规则,而

对于类型1规则的处理都是一样的.它们本质上都需

要对输入的句法树进行规则匹配.这样类型2规则的

匹配还是会受到输入句法树结构的约束,从而导致翻

译推导空间的减小.正如3.1节开始所描述的,我们

可以使用基于词串的匹配策略来使用树到串规则,

也就是说在构建翻译推导森林的过程中,考虑所有

潜在的源语言句法分析结果.这样可以得到较大的

搜索空间,进而增加生成高质量翻译结果的几率.

基于词串的单一匹配策略实际上就是使用同一

种(基于词串的)规则匹配策略来使用类型1和类型2

规则.对于源语言端包含连续变量的类型2规则,我

们可以使用规则二叉化的方式将其分解,之后在解

码时动态组装即可.

值得注意的是:如果使用基于词串的解码方法,

对于树到串规则的使用,系统的效率是很低的.这主

要是由于树到串规则会引入许多非词汇化规则(对

应一部分类型2规则),这会大大增加翻译推导空间

的大小,进而增加系统的运行时间.对于这个问题,

我们对除了胶水规则以外的非词汇化规则进行了剪

枝,同时只使用了少量数据进行树到串规则抽取,这

使得系统仍然可以在相对较高的翻译速度下运行.

为了对比本文研究的不同规则匹配策略,图4进一

步给出了每种策略的示意.

3184期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法

Page 7: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

图4 基于树的精确规则匹配

33 特 征

本文的基线层次短语系统使用的是 NiuTrans

开源工具包[20]中的NiuTrans.Hierarchy系统.本文

使用了如下9个基础特征:双向翻译概率、双向词汇

权重、翻译长度惩罚、规则个数惩罚、短语翻译规则

个数惩罚、胶水规则个数惩罚、语言模型得分.除了

以上特征之外,本文还考虑了文献[11]中的若干个

额外的特征,包括:

(1)树到串规则指示特征.这类特征是二值特

征,用来指示SCFG规则所对应的树到串规则类型.

对于解码中使用的每一条SCFG规则,树到串规则

指示特征包括是否对应树到串规则、是否对应非词

汇化树到串规则和是否对应在源语言端包含连续变

量的树到串规则.

(2)句法规则翻译概率.实际上句法系统通常

包含一些独特的特征.比如,句法树生成概率等.因

此我们也在树到串规则上使用了若干句法系统所使

用的特征[11].

此外,我们也设计了若干特征来进一步对规则

中树结构的匹配进行建模,即

(3)树匹配特征.这类特征是二值特征,并且仅

在使用基于树的规则匹配时发挥作用.对于解码中

使用的每一条SCFG规则,树匹配特征包括是否通

过精确树匹配使用该规则和是否通过模糊树匹配使

用该规则.

在解码时,每条SCFG规则都会有上述这些特

征.对于9个基础特征,我们采用了传统的方法对其

进行计算[12],即对双向翻译概率使用相对频率进行

计算、双向词汇权重使用词对齐进行计算、语言模型

概率使用回退的方法进行计算、翻译长度及规则个

数等特征进行直接计算即可.这里需要额外处理的

是类型2规则.由于该类型规则在基线系统的规则

表里没有出现,因此它所对应的双向翻译概率需要

重新计算.本文采用了一个简单而直接的策略:单独

对类型2规则采用相对频率估计方法来计算规则翻

译概率.也就是说,在抽取得到基础SCFG规则和树

到串规则后,我们会额外对从树到串规则转换而来

的类型2规则进行翻译概率计算.对于类型2规则

的其他基础特征,我们直接使用基线系统的相应模

块进行计算即可,无需改动.

对于树到串规则使用的特征(树到串规则指示特

征、句法规则翻译概率、树匹配特征),类型1规则均

使用固定的缺省值:指示型特征的缺省值为1,概率

型特征的缺省值为10-6.对于以上这些特征,不同的

类型2规则会有区别.比如,有如下两条树到串规则:

VP(PP(P(对)狓1:NN)狓2:VV)→狓2with狓1,

VP(P(对)狓1:IP狓2:VP)→狓2with狓1.

它们会对应同一条类型2规则

犡→〈对犡1犡2,犡2with犡1〉.

在进行解码时,如果分别使用了以上两条树到串规

则(假如匹配上了源语言树结构),它们所对应的基

础特征是相同的,即规则犡→〈对 犡1犡2,犡2 with

418 计  算  机  学  报 2016年

Page 8: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

犡1〉所对应的基础特征.但是,以上两条树到串规则

所对应的其他特征,如句法规则翻译概率等是不同

的,这样也就区分了两条规则的使用情况.也就是

说,对于同一个SCFG规则,即使对应多个不同的树

到串规则,解码时也会动态的选择匹配的树到串规

则计算树到串规则指示特征、句法规则翻译概率、树

匹配特征.解码器匹配了哪条树到串规则,就用该规

则计算相应的(句法规则)特征.最终,解码器会选择

模型得分最高的翻译推导,并输出相应的译文.

4 实 验

41 实验设置

本文的实验在NIST汉英翻译任务上进行.实

验的训练用包括270万句对的双语数据①.首先,我

们用GIZA++工具②对训练数据进行双向词对齐,

之后利用“growdiagfinaland”启发性算法对双向

词对齐结果进行对称化处理.此外,我们使用了英语

GIGAWORD的 Xinhua部分(LDC2003T05)和双

语数据的目标语部分训练了一个基线系统的5元语

言模型.我们同时使用newswire和web两类数据完

成系统的调优和测试.系统的开发集合(用于调优)包

括newswire数据1181句和web数据483句.测试

数据包括所有NISTMT08、MT12、MT08progress

中的newswire和web测试数据,总计newswire数

据1779句和 web数据1768句.所有训练集、开发

集和测试集中的中文句子都使用BerkeleyParser③

得到句法分析结果,并以短语结构树形式输出.

我们选择 NiuTrans.Hierarchy作为实验的基

线系统.该系统的解码器基于CKY算法,并同时使

用了束剪枝和立方剪枝来对解码器进行提速.特征权

重利用最小错误率训练在开发集上自动调优.所有的

翻译规则都通过标准的 Hiero抽取方法[12]得到.在

解码和基本短语规则抽取中允许的最大跨度为10.

对于树到串规则抽取,我们使用了 NiuTrans

提供的GHKM规则抽取模块.类似于文献[11],我

们在训练数据中的一个高质量子集(50万句)上抽

取了树到串翻译规则,其中每条规则最多允许5个

终结符和5个变量.此外,我们利用翻译概率对树到

串规则进行了剪枝,剪枝包括丢弃正向翻译概率小

于0.02的词汇化规则和丢弃正向翻译概率小于

0.10的非词汇化规则.

42 实验结果

本文实验需要回答3方面问题:

(1)在本文实验系统NiuTrans上,树到串模型

强化层次短语模型是否可以有效地提高翻译性能?

(2)不同的解码方法对翻译准确性影响如何?

(3)在树到串模型强化层次短语模型中,还有

哪些因素(如树结构、搜索空间等)可以影响翻译性

能,这些因素与本文所研究的解码方法的最优组合

是什么?

针对以上3个问题,我们开展了实验.表1给出

了不同实验的BLEU值[21].下面是对具体实验结果

的说明.

表1 不同翻译系统的犅犔犈犝值

编号 系统

Newswire(BLEU4/%)

Tune MT08 MT12 MT08.p Alltest

(1181) (691) (400) (688) (1779)

Web(BLEU4/%)

Tune MT08 MT12 MT08.p Alltest

(483) (666) (420) (682) (1768)

exp01 标准层次短语基线系统 36.70 32.50 33.30 31.90 32.79  31.80 23.90 21.90 25.00 24.21 

exp02 exp01+句法软约束(特征) 36.84 32.44 33.30 31.99 32.83 31.91 23.84 22.06 25.03 24.26

exp03 exp01+去掉跨度约束 36.80 32.54 33.32 31.99 32.86 31.85 23.95 21.86 25.00 24.22

exp04 exp03+树到串规则 37.19 33.06 33.79 32.27 33.20 32.24 24.20 22.43 25.42 24.59

exp05 exp04+树到串特征 37.26 33.15 33.82 32.39 33.28 32.35 24.27 22.40 25.51 24.64

exp06 exp04+模糊句法标记 37.24 33.20 33.90 32.39 33.32 32.46 24.33 22.43 25.59 24.70

exp07 exp04+模糊树结构 37.45 33.39 33.97 32.66 33.49 32.60 24.46 22.48 25.65 24.81

exp08 exp04+模糊树结构 &句法标记 37.47 33.42 34.08 32.78 33.57 32.67 24.53 22.55 25.80 24.90

exp09 exp04+基于词串的解码 37.61 33.63 34.12 32.88 33.69 32.70 24.64 22.77 25.81 24.99

exp10 源语言树约束 34.90 31.04 31.98 30.05 31.24 31.20 22.56 20.07 23.27 22.56

exp11 exp08在跨度>10上进行 37.12 33.20 33.63 32.20 33.17 32.22 24.24 22.33 25.27 24.53

exp12 exp08+左孩子优先二叉化 37.95 34.01 34.66 33.47 34.13 33.04 24.99 23.04 26.24 25.44

exp13 exp08+右孩子优先二叉化 37.68 33.57 34.23 32.93 33.70 32.77 24.60 22.87 25.86 25.07

exp14 exp08+基于森林的二叉化 37.99 35.96 34.62 33.55 34.15 33.02 24.94 23.07 26.30 25.48

注:或表示测试集上相比基线exp01有显著性提高,狆<0.05或0.01.

4.2.1 基线系统(exp01~03)

为了进行有效的对比,我们选择了3种基线系统:

exp01标准的层次短语系统,即NiuTrans.Hierarchy;

exp02在exp01的基础上加入句法软约束,这里我

5184期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法

LDC编号:LDC2000T46、LDC2000T47、LDC2000T50、

LDC2003E14、LDC2005T10、LDC2004T08、LDC2003E07、

LDC2005T06.

http://code.google.com/p/gizapp/

https://code.google.com/p/berkeleyparser/

Page 9: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

们使用了文献[5]中描述的性能较好的特征集

{NP+,NP=,VP+,VP=,PP+,PP=,XP+,

XP=};exp03在exp01的解码中当源语片段符合

句法结构时除去跨度限制,这种方法可以被看作是

对源语言句法信息在层次短语系统中最简单的

使用.

从表1可以看出,加入句法软约束(exp02)在多

个测试集上可以带来少量的性能提升.这个结果一

方面肯定了源语言句法信息对机器翻译有帮助,另

一方面也说明了简单的增加句法特征(而不引入新

的规则或增大解码空间)并不能十分有效地提升层

次短语系统的性能.此外,在exp03中,除去跨度限

制会带来一定的BLEU提升.这个实验结果也间接

地验证了文献[4]中的发现:减少跨度约束对基于句

法约束的系统是有帮助的.

4.2.2 树到串+层次短语(exp04和exp05)

进一步,我们实验证明了层次短语结合树到串

翻译方法的有效性.这部分实验使用的是3.2.1节

所描述的基于串和树的混合解码方法,即文献[11]

中所使用的解码方法.exp04和exp05分别表示不

使用或者使用3.3节所描述的新特征的实验结果.

可以看出在newswire和web两类数据上,加入树到

串翻译规则分别带来了0.6和0.5个BLUE值的提

升(exp04vs.exp01).而新特征又带来少量的BLEU

提升(exp05vs.exp04).尽管文献[11]和本文使用

了不同的机器翻译系统(HiFSTvs.NiuTrans),本

实验仍然得到了与文献[11]一样的发现:加入句

法规则和特征可以有效地提升层次短语系统的

性能.

4.2.3 解码方法对比(exp05~09)

实验exp05~09对应了不同的解码方法的结

果,其中exp05使用了3.2.1节所描述的基于词串

和树的混合解码策略,因此可以作为这组对比的基

线.exp06~09对应使用基于树的规则模糊匹配的

结果.可以看出模糊匹配对基于树的解码非常有帮

助,可以进一步提高性能.具体来说,树结构的模糊

匹配更为有效,而句法标记的模糊匹配带来的性能

提升较少.这可能是由于中文的结构过于复杂,因此

需要更加宽松的树结构约束来帮助系统得到较大的

翻译推导空间.而中文的句法标记相对稳定(而且

数量不是很大),因此对句法标记进行模糊匹配并不

能带来很大的翻译性能的提升.exp09给出了基于

串的解码的结果,可以看出该方法取得了最好的

BLEU值,这也说明了增大解码器的搜索空间非常

有助于系统性能的提升.由于exp09的优异性能,在

随后的实验中我们选择了基于串的解码方法作为缺

省的解码方法进行研究.

此外,我们测量了不同解码方法(基线系统、加

入树到串规则和特征、使用基于串的解码、加入二叉

化方法)的运行速度.表2给出了系统在所有数据上

处理的平均速度.可以看出在引入句法规则后,系统

的翻译速度只下降了10%,这和我们预期结果是一

致的:引入不太多的句法规则并不会过多的增加系

统负担.另一方面,在引入基于串的解码后,系统的

运行速度有一半的下降.这个结果主要是由于基于

串的解码要对所有跨度进行计算,系统并不能像基

于树的解码那样通过句法结构来约束解码空间,因

此系统的负担较重.

表2 不同解码方法的运行速度

编号 系统 速度

exp01 标准层次短语基线系统 1.11句/秒

exp05 +树到串特征和规则 1.01句/秒

exp09 +基于串的解码 0.47句/秒

exp12 +左孩子优先二叉化 0.42句/秒

4.2.4 搜索空间大小对翻译性能的影响(exp10~11)

本文工作的基本思想是增大翻译的搜索空间使

得翻译系统能够在更大范围上搜索最优解.类似于

文献[11],我们对exp09的系统进行了限制,强制所

有翻译推导必须遵循源语言树结构(所有使用的规

则必须覆盖完整的句法树结构),不遵循句法树约束

的翻译假设被移除.exp10给出了这个系统的实验

结果.可以看出,限制搜索空间的大小会显著地降

低系统的翻译性能,比如,exp10相比于exp09和

exp01都有非常明显的BLEU下降.

另一方面,本文的引言部分就描述了解码中使

用跨度约束会产生的问题,特别是对于跨度很大的

翻译片段,这个约束可能会造成负面影响.使用源语

言句法树结构能够消除跨度约束对系统的影响.为

了进一步验证这个结论,我们设计了一组新的实验,

我们仅在跨度大于10时使用本文所提出的层次短

语和树到串相结合的方法,而在小于等于10的跨度

上仍使用基线的层次短语翻译模型.如exp11所示,

仅在大于10的跨度上使用本文所提出的方法对翻

译系统仍然会有帮助(exp11vs.exp01).但是相比

在所有跨度上使用该方法,exp11的性能提升还是

相对较小(exp11vs.exp09).这个实验现象表明该

618 计  算  机  学  报 2016年

Page 10: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

方法在小的跨度上对翻译系统也很有帮助.

4.2.5 树二叉化对翻译性能的影响(exp12~14)

树二叉化是常用且有效的改进句法系统的方

法[22],因此在本文的实验中我们也尝试了使用树二

叉化技术对系统进行改进.exp12~14给出了经过

左孩子优先、右孩子优先及基于森林的二叉化处理

后的源语言句法树对应的翻译性能.结果显示左孩

子优先的二叉化方法(exp12)可以非常有效地提高

翻译性能,在newswire和 web数据上相比exp01

它可以提高1.3和1.2个BLEU点.相比之下,右

孩子优先的二叉化方法(exp13)对性能提高没有太

大帮助.这个结果和相关工作的结论[11,22]是比较一

致的,即机器翻译系统倾向于使用特定类型的二叉

化方法.exp14的结果表明在已经二叉化的句法树中

引入基于森林的二叉化方法并不能十分有效地增加

可用规则的数量.这个现象也表明当系统(如exp11)

已经包含了很大数量的翻译推导时,简单地增加规

则数量很难进一步提高翻译系统的性能.

43 分析:规则使用率

除了考察系统输出结果的BLEU值,本文也研

究了在最优翻译推导中对于不同类型规则使用的情

况.我们发现改进后的系统非常喜欢使用树到串规

则.比如,在exp04中,最优推导中的9.3%的规则

是类型2规则.当我们引入左孩子优先二叉化之后

(exp08),这个比例上升至14.5%.进一步,我们又

研究了最优推导中可以使用基于树的匹配方法进行

匹配的规则.如表3所示,当树到串规则增多时,系

统会更加倾向于使用基于树的匹配方法来使用规

则,这个结果和我们的预期结果也是相符的.

表3 不同规则匹配方法被使用的比例

规则匹配方法 基线/% +树到串/% +树二叉化/%

基于串 100 73 55

基于树 0 27 45

44 分析:句法模型的规模对翻译性能的影响

本文中另一个需要分析的问题是句法模型的

规模对翻译性能的影响.在前面的实验中,我们只

使用了整个双语数据的20%来获取树到串翻译规

则,而使用了100%的双语数据训练获取层次短语

模型.这样做的主要目的是减少句法模型训练的开

销,同时减少解码器的负担.一个很自然的问题是增

加句法模型训练数据是否可以进一步提高翻译性

能?为了回答这个问题,我们研究了不同规模句法模

型训练数据对最终翻译效果的影响.如图5的t2s+

SCFG曲线所示,为树到串模型引入更多的训练数

据能为本文的系统带来少量的性能提升,但是

BLEU的增长非常有限.这也说明,在本文所研究的

解码框架下,层次短语模型已经为翻译提供了很好

的基础,而句法规则可以作少量的补充,但是大量的

句法规则并不能带来显著的性能提升.为了进行对

比,我们也给出了不同数据规模下树到串系统的

性能对比结果,即图5中的t2s曲线.可以发现树

到串系统对训练数据的规模更加敏感,当数据大

于200万句(所有数据80%以上)时,结果才趋于

稳定.

图5 不同树到串模型训练数据规模下不同系统的BLEU值

进一步,我们研究了不同规模的模型在解码

中所使用的不同类型的规则的比例,包括3类规

则:类型1规则、类型2中的非词汇化规则和词汇

化规则.如图6所示,随着树到串模型训练数据的

增加,系统也会使用更多的类型2规则.有趣的

是,非词汇化规则被使用的几率基本上没有变化,

而词汇化规则随着数据的增多有更加频繁的使用

趋势.这个结果也反映了一个现象:翻译中使用的

非词汇化规则应该是相对稳定的,它们可以从

“不太大”的训练数据中学习到,而不需要像词汇

化规则那样依赖很大的训练集才能取得较好的

效果.

7184期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法

Page 11: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

图6 不同树到串模型训练数据规模下各种类型规则使用的比例

45 分析:句法特征狏狊.句法规则

在前面的实验中,我们对比了源语言句法信

息在层次短语系统中的不同使用方法,包括源语

言句法软约束/特征(exp02)、源语言句法硬约束

(exp10)、本文所使用的引入额外句法规则的方法

(exp04~09、exp11~14).从实验结果中不难看出:

(1)利用源语言结构信息来约束解码过程,会降低

翻译质量;(2)使用句法软约束/特征在本文所使用

的实验系统上并不能带来很大的性能提升.

对于上面提到的第一个现象,已经在4.2.4节

进行了分析.实际上,本文工作的出发点就是引入句

法规则来增加优质翻译推导的数量.比如,在多种情

况下(如newswire数据与 web数据、原始CTB形

式句法树vs.二叉句法树),该方法均带来了稳定的

性能提升.相比之下,简单的引入不同形式的句法特

征对系统性能的影响非常有限.这不仅体现在传统

句法软约束方法上(exp01vs.exp02),同时在引入

本文所描述的句法特征上也有类似现象(exp04vs.

exp05).进一步分析实验结果发现句法特征对于不

同的系统(或设置)效果有着较大的差别.这里,我们

设计了一组额外的实验:调整n元语言模型中n的

值,对比基线系统(exp01)、源语言句法软约束系统

(exp02)和引入句法规则的系统(exp04)的 BLEU

值.这个实验的目的是调整语言模型的强弱构造不

同性能的基线系统,从而比较句法信息的不同使用

方法对机器翻译性能的影响.图7给出了实验结果.

比较有趣的现象是:在不同性能的基线系统性能下,

增大解码空间会带来相对稳定的提升(exp04);而使

用源语言句法特征对于性能较低的系统似乎更加有

效,但是对于较强的系统性能提升很有限.这反映了

机器翻译中特征相互作用的问题:对于一个特征,它

所带来的优势可能会被其他强势特征所覆盖,所带

来的性能提升可能会被淹没.这本质上也反应了统

计学习中模型复杂度的观点:对于一个复杂的“强”

模型/系统,需要引入更加复杂的特征和更多的训练

数据才能带来一定的性能提升;相反,对于一个相对

简单的“弱”模型/系统,引入同样的特征就可以增加

模型的判别能力,进而带来较大的性能提升.

图7 基线、句法软约束、引入句法规则方法对比

此外,我们也分析了句法软约束对于不同类型

句法结构的区分能力,也就是句法特征能在多大程

度上指示翻译结果的好坏.这可以进一步地解释

exp02相对exp01性能提升有限的原因.所谓句法

软约束,实质上就是度量了不同类型句法结构与解

码中使用的翻译规则的兼容性.比如,一个规则所

覆盖的源语言跨度与某个句法结构有交叉,称作

cross,这时系统应该倾向给一个惩罚;而一个规则

818 计  算  机  学  报 2016年

Page 12: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

所覆盖的源语言跨度与句法结构兼容,称作match,

这时系统应该倾向给一个奖励.表4给出了基线系

统的1best和 Oracle翻译结果/推导①所对应不同

源语言句法结构的“交叉”和“兼容”的比例.这里我

们给出了前15个占比最大的句法类型的结果.可以

看出,对于1best结果句法交叉和兼容的情况之间

并没有明显的比例差别,这个现象在Oracle结果中

也类似.这也说明了简单的使用“交叉”和“兼容”两

种句法特征并不能很好的区分翻译结果的好坏.比

如,在我们的实验中 Oracle结果比1best结果高8

个BLEU点,但是二者的句法“交叉”和“兼容”比例

并没有明显差别,也就说在本文的基线系统中句法

软约束并没有很好的判别能力.这个现象也从某个

角度解释了为什么实验exp02中句法兼容性特征并

不是非常有效.

表4 不同句法结构的兼容性分析

句法标记(比例)1best翻译推导

Match/% Cross/%

Oracle翻译推导

Match/%Cross/%

NP(38.8%) 50.3 49.7 50.4 49.6

VP(22.2%) 11.3 88.7 11.4 88.6

IP(13.02%) 17.9 82.1 17.9 82.1

ADVP(5.52%) 99.6 0.4 99.6 0.4

QP(4.42%) 51.2 48.8 52.6 47.4

PP(3.26%) 20.7 79.3 20.2 79.8

CLP(2.91%) 94.4 5.6 94.5 5.5

CP(2.42%) 14.8 85.2 15.8 84.2

ADJP(2.15%) 93.6 6.4 94.1 5.9

DNP(1.84%) 18.7 81.3 17.9 82.1

LCP(1.45%) 22.5 77.5 22.3 77.7

DP(1.28%) 82.8 17.2 83.8 16.2

VRD(0.17%) 40.9 59.1 39.5 60.5

VCD(0.12%) 37.0 63.0 32.6 67.4

相比源语句法特征的“不稳定”表现,引入句法

规则来增大解码空间显示出相对稳定的性能提升能

力.图7中,在不同性能的基线系统上该方法都可以

带来0.6个点的BLEU提升.这个现象反映出一个

事实:增大解码空间与加入更多特征是改善统计机

器翻译系统的两个维度,二者可以从不同角度改进

层次短语系统,它们之间并没有矛盾.简言之,引入

句法规则可以相对稳定的提高系统性能,而句法特

征在较低性能的系统上会有更好的表现.

5 相关工作

近些年语言学驱动的方法在机器翻译中受到了

广泛关注.特别是基于源语言句法信息的翻译模型

在许多任务中都显示出巨大的潜力.比如,如树到串

模型[1314]很适合处理长距离依赖和复杂的句法结构

调序问题.另一方面,层次短语翻译模型[1]本身并不

依赖任何语言学句法信息,但是也可以描述句子的

层次结构,并且在很多任务中表现出非常优异的

性能.

在机器翻译研究领域,有若干方法利用源语言

句法信息对层次短语模型进行改进.比如,文献[10]

描述了一种联合解码方法.这种方法来源于传统的

系统融合任务.在这项工作中,层次短语模型和树到

串模型在解码过程中进行融合,构建更大的翻译推

导空间.这样两个模型可以在一个解码框架下实现.

文献[11]使用更加简单的框架在层次短语系统中使

用树到串翻译模型:比如它只需要修改翻译文法,而

几乎不用修改解码器就能实现该方法,而文献[10]

的方法需要对解码器进行较大的改动,此外也需要

开发新的最小错误率训练模块.但是,本文的工作与

文献[10]和文献[11]的工作有明显区别:(1)本文

重点研究了不同的解码策略对树到串模型在层次短

语系统中的集成的影响,而这些解码方法并没有在

相关工作中进行研究;(2)本文利用丰富的实验结

果在NiuTrans开源系统上对比了不同方法解码方

法的有效性,分析了多种因素对翻译性能的影响,并

找出了最优的组合方式;(3)本文分析了翻译解码

中各种规则的使用情况,并研究了树到串模型训练

数据规模对翻译性能的影响.

其他的一些工作专注于在层次短语系统中引入

句法约束作为新的特征.比如,文献[5]和文献[4]分

别在层次短语系统中尝试了句法软约束和硬约束来

对翻译推导与源语言树结构的兼容性进行建模.但

是,我们发现(见表1),这些约束特征在本文的基线

系统上没有显示出优势,这也是本文研究新的句法

信息在层次短语系统中的集成方法的出发点之一.

除此之外,还有一些工作在SCFG规则中引入句法

标记来间接地在层次短语系统中使用句法信息[69].

但是这些工作均使用了类似于 Hiero系统的短语/

层次短语抽取方法.相比之下,本文所使用的框架方

法是直接使用GHKM 进行规则抽取,因此不受传

统短语/层次短语抽取中的各种约束的限制.更重要

的是,我们的方法在解码中可以更加充分地利用源

语言句法树的层次结构信息,这些在传统的基于

SCFG的系统中是无法使用的.

9184期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法

① 这里1best结果是指机器翻译系统模型得分最高的翻译结

果.oracle结果是指机器翻译系统前256个得分最高的翻

译结果中BLEU值最高的结果,oracle结果一定程度上反映了系统的翻译性能上线,即系统在当前模型和解码方法下可能达到的最好性能.

Page 13: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

6 总结及展望

本文重点研究了在层次短语系统中集成源语言

句法信息的解码问题,并采用了多种解码方法来有

效地增加系统的搜索空间.在NISTMT0812汉英

机器翻译测试集上该方法超过了基线系统1.2个

BLEU点以上.本文分析了该框架下影响性能的主

要因素,并发现基于串的解码结合树二叉化方法可

以得到最大的性能提升.此外,本文还分析了解码中

各种规则的使用比例,并研究了树到串模型训练数

据规模对翻译结果的影响.在未来的工作中,我们拟

对树到树模型在层次短语系统中的有效集成进行深

入研究.

致 谢 首先感谢《计算机学报》的编辑老师和各位

评委专家对本文工作所提出的宝贵修改意见.同时

感谢东北大学自然语言处理实验室的李强在本文实

验系统的准备中所提供的帮助,感谢杜权在本文实

验数据准备、加工方面所提供的帮助,感谢高瑜泽和

杨春杰对本文文字内容的改进意见!

参 考 文 献

[1] ChiangD.Ahierarchicalphrasebasedmodelforstatistical

machinetranslation//ProceedingsoftheAnnualMeetingof

theAssociationforComputationalLinguistics(ACL).Ann

Arbor,USA,2005:263270

[2] GalleyM,HopkinsM,KnightK,MarcuD.What’sina

translationrule?//ProceedingsoftheJointConferenceon

HumanLanguageTechnologiesandtheAnnualMeetingof

theNorthAmericanChapteroftheAssociationofComputa

tionalLinguistics(HLTNAACL).NewYork,USA,2004:

273280

[3] GalleyM,GraehlJ,KnightK,etal.Scalableinferencesand

trainingofcontextrichsyntaxtranslationmodels//Proceedings

oftheInternationalConferenceonComputationalLinguistics

andtheAnnualMeetingoftheAssociationforComputational

Linguistics(COLING/ACL).Sydney,Australia,2006:

961968

[4] LiJunhui,ResnikP,DauméIIIH.Modelingsyntacticand

semanticstructuresinhierarchicalphrasebasedtranslation//

ProceedingsoftheJointConferenceon HumanLanguage

TechnologiesandtheAnnualMeetingoftheNorthAmerican

Chapterofthe Association ofComputationalLinguistics

(HLTNAACL).Atlanta,USA,2013:540549

[5] MartonY,ResnikP.Softsyntacticconstraintsforhierarchical

phrasedbasedtranslation//ProceedingsoftheJointConference

on AnnualMeetingoftheAssociationforComputational

LinguisticsandHumanLanguageTechnologies(ACLHLT).

Columbus,USA,2008:10031011

[6] ChiangD.Learningtotranslate withsourceandtarget

syntax//ProceedingsoftheAnnualMeetingoftheAssociation

forComputationalLinguistics(ACL).Uppsala,Sweden,

2010:14431452

[7] HoangH,KoehnP.Improvedtranslationwithsourcesyntax

labels//ProceedingsoftheJointFifthWorkshoponStatistical

MachineTranslationandMetricsMATR.Uppsala,Sweden,

2010:409417

[8] ZhaoBing,AlOnaizanY.Generalizinglocalandmonlocal

wordreorderingpatternsforsyntaxbasedmachinetranslation

//ProceedingsoftheConferenceonEmpiricalMethodsin

NaturalLanguageProcessing (EMNLP).Hawaii,USA,

2008:572581

[9] Zollmann A,Venugopal A.Syntax augmented machine

translationviachartparsing//ProceedingsoftheWorkshop

onStatisticalMachineTranslation.NewYork,USA,2006:

138141

[10] LiuYang,MiHaitao,FengYang,LiuQun.Jointdecoding

withmultipletranslationmodels//ProceedingsoftheAnnual

Meetingofthe AssociationforComputationalLinguistics

(ACL).Singapore,2009:576566

[11] XiaoTong,deGispertA,ZhuJingbo,ByrneB.Effective

incorporationofsourcesyntaxintohierarchicalphrasebased

translation//Proceedingsofthe25thInternationalConference

on ComputationalLinguistics:TechnicalPaper.Dublin,

Ireland,2014:20642074

[12] ChiangD.Hierarchicalphrasebasedtranslation.Computa

tionalLinguistics,2007,33(2):201228

[13] HuangLiang,KnightK,JoshiA.Statisticalsyntaxdirected

translationwithextendeddomainoflocality//Proceedingsof

theConferenceoftheAssociationforMachineTranslationin

theAmericas(AMTA).Cambridge,USA,2006:6673

[14] LiuYang,LiuQun,LinShouxun.Treetostringalignment

templateforstatisticalmachinetranslation//Proceedingsofthe

InternationalConferenceonComputationalLinguisticsand

Annual Meeting of the Association for Computational

Linguistics(COLING/ACL).Sydney,Australia,2006:609616

[15] MatusovE,UeffingN,NeyH.Computingconsensustranslation

from multiplemachinetranslationsystemsusingenhanced

hypothesesalignment//ProceedingsoftheAnnualMeetingof

theEuropeanAmericanChapteroftheAssociationofCompu

tationalLinguistics(EACL).Trento,Italy,2006:3340

[16] RostiAVI,MatsoukasS,SchwartzR.Improvedwordlevel

systemcombinationformachinetranslation//Proceedingsof

theAnnualMeetingoftheAssociationforComputational

Linguistics(ACL).Prague,CzechRepublic,2007:312319

[17] CmejrekM,MiHaitao,ZhouBowen.Flexibleandefficient

hypergraphinteractionsforjointhierarchicalandforestto

028 计  算  机  学  报 2016年

Page 14: 基于树到串模型强化的层次短语 机器翻译解码方法cjc.ict.ac.cn/online/onlinepaper/xt-2016327155222.pdf(2)第二类方法是利用系统融合的思想,将层次短

stringdecoding//ProceedingsoftheConferenceonEmpirical

MethodsinNaturalLanguageProcessing(EMNLP).Seattle,

USA,2013:545555

[18] ZhuJingbo,XiaoTong.Improvingdecodinggeneralizationfor

treetostringtranslation//ProceedingsoftheAnnualMeeting

oftheAssociationforComputationalLinguistics(ACL)Short

Papers.Portland,USA,2011:418423

[19] XiongHao,LiuYang,LiuQun.Fuzzymatchingfortree

based machinetranslation.JournalofChineseInformation

Processing,2011,25(2):6671(inChinese)

(熊皓,刘洋,刘群.模糊匹配在树到串翻译模型中的应

用.中文信息学报,2011,25(2):6671)

[20] XiaoTong,ZhuJingbo,ZhangHao,LiQiang.NiuTrans:

Anopensourcetoolkitforphrasebasedandsyntaxbased

machinetranslation//ProceedingsoftheAnnualMeetingofthe

AssociationforComputationalLinguistics (ACL):System

Demonstrations.Jeju,Korea,2012:1924

[21] PapineniK,RoukosS,WardT,ZhuWeiJing.BLEU:A

methodforautomaticevaluation of machinetranslation//

Proceedingsofthe Annual Meetingofthe Associationfor

ComputationalLinguistics(ACL).Philadelphia,USA,2002:

311318

[22] WangWei,MayJ,KnightK,MarcuD.Restructuring,

relabeling,andrealigningforsyntaxbasedmachinetranslation.

ComputationalLinguistics,2010,36(2):247277

犡犐犃犗犜狅狀犵,bornin1982,Ph.D.,

lecturer.Hisresearchinterestsinclude

machinetranslationandnaturallanguage

processing.

犣犎犝犑犻狀犵犅狅,bornin1973,Ph.D.,professor.His

researchinterestsincludemachinetranslationandnatural

languageprocessing.

犅犪犮犽犵狉狅狌狀犱

Thehierarchicalphrasebasedmodelisoneofthemost

successfulMachine Translation (MT)models.Recently

augmentinghierarchicalphrasebasedsystemswithsource

syntaxisofinterestbymanyMTresearchers.Inthiswork,

wefollowthesimpleparadigm ofimprovinghierarchical

phrasebasedmodels:wedonotresorttosourcelanguage

syntacticconstraintsorsystemcombinationtechniques,but

insteadpresentasimplebuteffectiveapproachtointegrating

treetostringrulesintoanexistinghierarchicalphrasebased

system.Weregardthehierarchicalphrasebasedmodelas

thebasemodelandonlyapplytreetostringrulestowhere

theycancontribute.Thecontributionofthisworkisthatwe

addressthedecodingissueand presentseveraldecoding

strategiesundertheaboveframework,includingtreebased

exactdecoding,treebasedfuzzydecodingandstringbased

decoding.Wecarryoutexperimentsonwellestablishedand

largescaleChineseEnglishtranslationtasks.Experimental

resultsshowthatitoutperformsastrongbaselineover1.3

and1.2BLEUpointsonthenewswireandwebdatarespec

tively.

ThisworkwassupportedinpartbytheNationalNatural

ScienceFoundationofChina (Grants61272376,61300097

and61432013),theChinaPostdoctoralScienceFoundation

(Grant2013M530131).

1284期 肖 桐等:基于树到串模型强化的层次短语机器翻译解码方法