基于树到串模型强化的层次短语...

书书书

第３９卷　第４期

２０１６年４月

计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ

Ｖｏｌ．３９Ｎｏ．４

Ａｐｒ．２０１６

　

收稿日期：２０１４０８０８；在线出版日期：２０１５０７２２．本课题得到国家自然科学基金（６１３０００９７，６１２７２３７６，６１４３２０１３）、中国博士后科学基金

（２０１３Ｍ５３０１３１）资助．肖　桐，男，１９８２年生，博士，讲师，主要研究方向为机器翻译、自然语言处理．Ｅｍａｉｌ：ｘｉａｏｔｏｎｇ＠ｍａｉｌ．ｎｅｕ．ｅｄｕ．ｃｎ．

朱靖波，男，１９７３年生，博士，教授，主要研究领域为机器翻译、自然语言处理．

基于树到串模型强化的层次短语

机器翻译解码方法

肖桐朱靖波（东北大学信息科学与工程学院　沈阳　１１０８１９）

摘　要　文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法．其基本框架是把层次短

语模型作为基础模型，而把树到串模型作为层次短语模型的补充，增加翻译推导空间大小．文中重点研究了在该框

架下的统计机器翻译解码技术，并提出了多种解码策略，包括基于树的精确解码策略、基于树的模糊解码策略和基

于串的解码策略．通过ＮＩＳＴ汉英翻译任务上的实验结果显示，文中所研究的方法可以十分有效地提升基线层次短

语系统的翻译性能，比如在ｎｅｗｓｗｉｒｅ和ｗｅｂ数据上分别提高了１．３和１．２个ＢＬＥＵ点．此外，文中分析了若干影

响翻译性能的因素，并给出了对比实验结果．

关键词　统计机器翻译；层次短语模型；树到串模型；规则抽取；解码；社会媒体；社交网络；自然语言处理；机器翻译

中图法分类号ＴＰ３９１　　　犇犗犐号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１６．００８０８

犗狀犇犲犮狅犱犻狀犵狑犻狋犺犃狌犵犿犲狀狋犲犱犎犻犲狉犪狉犮犺犻犮犪犾犘犺狉犪狊犲犅犪狊犲犱犜狉犪狀狊犾犪狋犻狅狀

犕狅犱犲犾狊犝狊犻狀犵犜狉犲犲狋狅犛狋狉犻狀犵犕狅犱犲犾狊

ＸＩＡＯＴｏｎｇ　ＺＨＵＪｉｎｇＢｏ（犆狅犾犾犲犵犲狅犳犐狀犳狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犈狀犵犻狀犲犲狉犻狀犵，犖狅狉狋犺犲犪狊狋犲狉狀犝狀犻狏犲狉狊犻狋狔，犛犺犲狀狔犪狀犵　１１０８１９）

犃犫狊狋狉犪犮狋　ＷｅｓｔｕｄｙｄｅｃｏｄｉｎｇｍｅｔｈｏｄｓｔｏａｕｇｍｅｎｔａｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ

（ＭＴ）ｓｙｓｔｅｍｗｉｔｈａｔｒｅｅｔｏｓｔｒｉｎｇｍｏｄｅｌｉｎｔｈｉｓｐａｐｅｒ．Ｉｎｔｈｉｓｆｒａｍｅｗｏｒｋｔｈｅｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅ

ｂａｓｅｄｍｏｄｅｌｉｓｒｅｇａｒｄｅｄａｓｔｈｅｂａｓｅｍｏｄｅｌ，ａｎｄｔｈｅｔｒｅｅｔｏｓｔｒｉｎｇｍｏｄｅｌｉｓｅｍｐｌｏｙｅｄｔｏｅｎｌａｒｇｅ

ｔｈｅｄｅｒｉｖａｔｉｏｎｓｐａｃｅ．Ｉｎｐａｒｔｉｃｕｌａｒ，ｗｅｐｒｅｓｅｎｔｓｅｖｅｒａｌｄｅｃｏｄｉｎｇｓｔｒａｔｅｇｉｅｓ，ｉｎｃｌｕｄｉｎｇｔｒｅｅｂａｓｅｄ

ｅｘａｃｔｄｅｃｏｄｉｎｇ，ｔｒｅｅｂａｓｅｄｆｕｚｚｙｄｅｃｏｄｉｎｇａｎｄｓｔｒｉｎｇｂａｓｅｄｄｅｃｏｄｉｎｇ．Ｗｅｅｘｐｅｒｉｍｅｎｔｗｉｔｈｏｕｒ

ａｐｐｒｏａｃｈｉｎａｓｔａｔｅｏｆｔｈｅａｒｔＭＴｓｙｓｔｅｍｏｎｔｈｅＮＩＳＴＭＴｅｖａｌｕａｔｉｏｎｄａｔａ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ

ｓｈｏｗｔｈａｔｉｔｏｕｔｐｅｒｆｏｒｍｓａｓｔｒｏｎｇｂａｓｅｌｉｎｅｏｖｅｒ１．３ａｎｄ１．２ＢＬＥＵｐｏｉｎｔｓｏｎｔｈｅｎｅｗｓｗｉｒｅａｎｄ

ｗｅｂｄａｔａｒｅｓｐｅｃｔｉｖｅｌｙ．Ｍｏｒｅｏｖｅｒ，ｗｅｓｈｏｗａｓｙｓｔｅｍａｔｉｃｃｏｍｐａｒｉｓｏｎｏｆｓｅｖｅｒａｌｆａｃｔｏｒｓｔｈａｔａｆｆｅｃｔ

ｔｈｅｔｒａｎｓｌａｔｉｏｎｑｕａｌｉｔｙ．

犓犲狔狑狅狉犱狊　ｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ；ｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｍｏｄｅｌ；ｔｒｅｅｔｏｓｔｒｉｎｇｍｏｄｅｌ；

ｒｕｌｅｅｘｔｒａｃｔｉｏｎ；ｄｅｃｏｄｉｎｇ；ｓｏｃｉａｌｍｅｄｉａ；ｓｏｃｉａｌｎｅｔｗｏｒｋｓ；ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ；ｍａｃｈｉｎｅ

ｔｒａｎｓｌａｔｉｏｎ

１　引　言

基于句法的统计机器翻译模型在最近十年中取

得了前所未有的发展．其中最成功的一类模型是基

于同步上下文无关文法（ＳＣＦＧ）的层次短语模型［１］．

在该模型中，由于翻译规则的抽取没有使用任何的

源语（或者目标语）语言学句法信息做约束，因此可

以学习到数量巨大的翻译规则．为了把规则数量控

制在可接受的范围内，现在广泛的做法是在ＳＣＦＧ

规则抽取和使用阶段引入一些限制，比如：解码时

ＳＣＦＧ规则被应用的源语言跨度①不能超过一个阈

值（比如１０个词）；所有的非胶水规则都必须为词汇

化规则；所有规则中的变量个数最多不能超过两个；

所有规则的源语言端中的变量不能连续等．这些限

制使得层次短语系统可以进一步走向实用化，并且

也已经在很多任务中取得了不错的效果．但是，这在

一定程度上也削弱了层次短语系统处理长距离依赖

问题和复杂的句法成分调序问题的能力．

相比基于形式句法的层次短语模型，在机器翻

译中使用源语句法信息（即使用基于语言学句法的

翻译模型）能在很大程度上缓解上面所提到的问题．

比如，句法系统中常用的ＧＨＫＭ规则抽取［２３］使用

了源语（或者目标语）句法树信息来指导（树到串）翻

译规则的抽取．其中句法树信息的使用使得规则抽

取和翻译过程能够利用更多的语言学知识，从而使

翻译系统不需要像层次短语系统那样使用各种各样

的工程化的约束条件．比如，在ＧＨＫＭ框架下，可

以去掉规则的源语言跨度约束；可以允许非词汇化

规则的引入；可以在规则的源语言端使用两个以上

的变量和连续的变量．此外，我们还可以使用句法信

息定义新的特征来鼓励翻译推导遵循句法约束的情

况．不过，ＧＨＫＭ框架也有一些严重的问题．比如，

翻译规则的质量在很大程度上受限于自动句法分析

性能的好坏；翻译规则的多样性和覆盖度很有限，许

多情况下翻译系统无法找到理想的规则．

针对以上问题，一种自然的解决方案就是在层

次短语系统中引入更多的源语言句法信息．有两类

方法：（１）在层次短语系统中引入句法特征．比如，

文献［４５］使用句法软／硬约束来增加系统对源语言

句法合法性的敏感度，而文献［６９］在ＳＣＦＧ规则中

加入句法标记使其能够在使用规则时考虑句法标记

的兼容性．不过，这些方法本质上仍然依赖于ＳＣＦＧ

规则抽取，因此无法避免前面提到的各种限制；

（２）第二类方法是利用系统融合的思想，将层次短

语和树到串系统进行融合，如使用联合解码技术［１０］

在解码阶段同时使用层次短语规则和树到串翻译规

则生成翻译推导．也可以使用文献［１１］中的技术，直

接在层次短语解码器中使用树到串翻译规则．

本文的工作基于上面提到的第二类方法．核心

内容是以文献［１１］所描述的框架为基础，对多种树

到串规则在层次短语系统中进行集成的解码方法

进行研究．因此本文可以被看作是对文献［１１］的进

一步深化，但是本文的工作与文献［１１］有明显的区

别．相比文献［１１］，本文的主要贡献体现在如下两个

方面：

（１）本文对树到串规则在层次短语系统中集成

的解码策略进行了深入研究，并对模糊规则匹配、基

于串的规则匹配、基于树的规则匹配等解码问题进

行深入研究，提出了相应的解码策略．此外，本文对

不同解码策略进行了实验对比，最终发现使用二叉

化句法树和基于串的解码这种组合可以获得最大的

性能提升．

（２）本文通过实验进一步对比了多种源语言信

息在层次短语系统中的使用方法，包括源语言句法

软约束、句法结构硬约束等．此外，本文分析了这些

方法在系统性能提升方面存在的问题．进一步，本文

还分析了解码中各种规则的使用比例，并研究了树

到串模型训练数据规模对翻译结果的影响．以上这

些分析和讨论在文献［１１］及相关工作中并未涉及．

本文将所提出的方法应用于ＮｉｕＴｒａｎｓ开源统

计机器翻译系统．大规模汉英机器翻译实验显示：本

文的方法在ＮＩＳＴＭＴ０８１２ｎｅｗｓｗｉｒｅ和ｗｅｂ数据

上能显著提高系统的翻译性能，ＢＬＥＵ值在两个类

型数据上分别能够提升１．３和１．２个点．

２　层次短语模型中集成树到串模型

为了方便对本文研究内容进行论述，本章对相

关背景技术进行了介绍，包括层次短语翻译模型和

树到串翻译模型的基本原理，以及在层次短语模型

中集成树到串模型的基础方法．

２１　层次短语翻译模型

层次短语模型依赖同步上下文无关文法

（ＳＣＦＧ）．同步上下文无关文法可以描述含有层次

结构的双语字符串的生成过程．形式上，同步上下文

无关文法被表示为一个规则系统〈犖，犠狊，犠狋，犚〉，

其中犖表示一个非终结符号集合，犠狊和犠狋表示源

语言和目标语言终结符号（或者词汇）集合，犚表示

一个产生式集合．犚中的每一个产生式对应一条

ＳＣＦＧ规则，形式为：犡→ 〈α，β，～〉，其中产生式

９０８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

① 本文中，跨度是指一个句子中从某个词开始到另一个词结束所覆盖的连续词串．

左手端的犡表示一个非终结符；右手端的α表示一

个源语言的终结符和非终结符序列，称作源语言端；

β表示一个目标语言的终结符和非终结符序列，

称作目标语言端；～表示α和β 中的非终结符的

一一对应关系．通常可以把～表示为非终结符的

下标．

概率化的同步上下文无关文法可以使用启发性

信息从经过词对齐的数据中自动获取［１２］．比如，可

以首先抽取初始翻译短语集合，之后利用这些初始

短语获取层次短语的翻译规则（即含有变量的翻译

规则）．在获取ＳＣＦＧ规则之后，可以利用这些ＳＣＦＧ

规则对新句子进行解码，完成对未知句子的翻译．

图１给出了从一个经过词对齐的例句中抽取得到的

ＳＣＦＧ规则实例．其中，规则犺７，犺１和犺３对应了一个

翻译推导，能够覆盖整个双语句对．而层次短语模型

的解码问题也可以被当作句法分析来处理，也就是

使用ＳＣＦＧ的源语言端分析输入的句子，之后构建

一个ＳＣＦＧ的推导森林（或者一个超图结构），之后

利用翻译模型和语言模型计算推导得分，并在推导

森林中找到最优推导并输出．

图１　Ｈｉｅｒｏ规则抽取（右上）及树到串规则抽取（右下）示例

在真实系统中，通常会引入一些约束条件来使

系统的解码过程能够在可接受的时间内完成，具体

包括：（１）在解码时限制一个层次短语规则可以被

应用的跨度大小，即跨度限制，通常为１０；（２）规则

的阶数（规则允许的变量个数）的限制，通常最多不

超过两个；（３）规则源语言端的变量不能连续出现

（除胶水规则外）；（４）规则必需为词汇化规则（除胶

水规则外）等．

２２　树到串翻译模型

树到串翻译模型把翻译过程定义为从源语言句

法树到目标语词串的转化问题［１３１４］．这个翻译过程

可以用一系列的树到串翻译规则表示．对于一条树到

串规则狉，可以将其表示为一个三元组〈狊狉，狋狉，～〉，其

中狊狉表示规则的源语言树片段，狊狉的叶子节点为终

结符或者变量（非终结符）；狋狉表示规则的目标语终

结符和变量序列；～表示狊狉中的叶子变量和狋狉中的

变量之间的一一对应关系．比如

ＶＰ（ＶＶ（提高）狓１：ＮＮ）→ｉｎｃｒｅａｓｅｓ狓１

就表示了一种树到串翻译规则，其中“ＶＰ（ＶＶ（提

高）狓１：犖犖）”为源语言句法树片段，“ｉｎｃｒｅａｓｅｓ狓１”

为目标语串，两端的狓１表示变量应该相互对应．

树到串翻译规则的抽取通常是通过ＧＨＫＭ方

法实现［２３］．ＧＨＫＭ方法的基本思想是利用词对齐

信息从源语言树和目标语串中抽取最小翻译规则，

之后利用这些最小翻译规则组装出更大的翻译规

则．比如，图１给出了利用ＧＨＫＭ方法从一个词对

齐的源语言句法树和目标语串中抽取得到的若干树

到串翻译规则．

树到串翻译模型的最大优点在于：规则（及所有

变量）都遵循句法树约束，比如所有的变量都需覆盖

合法且完整的句法子树单元．因此，树到串翻译的解

码并不需要强制加入规则跨度的约束．此外，由于源

０１８计　　算　　机　　学　　报２０１６年

语言句法树的使用，层次短语中关于变量个数、源语

言连续变量个数、规则必需词汇化等约束在树到串

翻译模型中都能够被消除．比如图１中的规则狉８具

有很好的源语言树结构，因为这种结构可以决定

ＮＰ和ＶＰ之间的调序．但是，在标准的层次短语系

统中由于这样的规则包含连续的源语言变量，因此

它们并不允许被使用．

２３　树到串模型在层次短语模型中的集成

本文遵循文献［１１］所提出的框架将树到串模型

集成到层次短语模型中．该方法的基本思想是：同时

使用Ｈｉｅｒｏ［１２］和ＧＨＫＭ

［２］方法从双语数据中抽取

翻译规则，之后将ＧＨＫＭ方法抽取得到的（树到

串）翻译规则加入到层次短语系统中对基线ＳＣＦＧ

进行补充．注意，这个方法与传统的系统融合和混合

翻译模型有所不同［１０，１５１６］，它并不是简单地把不同

的模型（层次短语和树到串）等同视之，再对它们进

行融合，而是把层次短语模型作为基础模型，然后利

用（少量）树到串规则对其进行强化．实际上，就是利

用树到串模型的优点来帮助层次短语模型改进其缺

点，但并不是一种对称化的系统融合方法．图２给出

了这个方法的基本框架．在规则抽取阶段，该方法同

时使用Ｈｉｅｒｏ和ＧＨＫＭ方法获取规则并得到一个

“更大”的ＳＣＦＧ，之后同时利用句子的词串和句法树

信息使用这些ＳＣＦＧ规则对新的句子进行解码．

图２　树到串模型在层次短语系统中集成的基本框架

如图２所示，本文所使用的方法需要同时进行

ＳＣＦＧ规则抽取和树到串规则抽取，这两类规则

可以分别使用标准的Ｈｉｅｒｏ规则抽取方法［１２］和

ＧＨＫＭ规则抽取方法［２３］获得．但是，树到串翻译规

则和ＳＣＦＧ规则具有不同的形式．因此，如果想在层

次短语系统中使用树到串翻译规则，就需要把它们

转化为ＳＣＦＧ规则．这样，在基于ＳＣＦＧ的解码器中

才可以间接地使用树到串翻译模型的信息．

由树到串规则到ＳＣＦＧ规则的转化非常直接：

对于一个给定的树到串翻译规则〈狊狉，狋狉，～〉，我们将

源语言端狊狉所对应的叶子节点序列作为生成的

ＳＣＦＧ规则的源语言端，并保持狋狉和～在ＳＣＦＧ规

则中不变．之后将规则中所有的句法标记替换为层

次短语系统所使用的句法标记（如犡）就得到了

ＳＣＦＧ规则．由此可见，经过上述的转化后，每条树

到串翻译规则都会对应唯一的一条ＳＣＦＧ规则．因

此我们可以将原始的ＳＣＦＧ和对树到串翻译规则进

行上述转化后的结果进行合并，从而得到更大的

ＳＣＦＧ规则．

进一步，将合并得到的ＳＣＦＧ中的规则分为两

种类型的规则：类型１规则是可以由Ｈｉｅｒｏ抽取得

到的规则，也就是说所有基线层次短语系统中的规则

都是类型１规则．类型２规则是Ｈｉｅｒｏ无法抽取的

规则，但是可以由树到串翻译规则转化得到．比如在

图２中的规则狉８可以通过这种方式转化为如下规则

犡→〈对犡１犡２，犡２ｗｉｔｈ犡１〉

由于这条规则包含连续的源语言端变量，因此它不

能被Ｈｉｅｒｏ方法抽取到，但是可以通过使用ＧＨＫＭ

方法被抽取出来．

３　解码方法

３１　基本框架

本文的重点是在文献［１１］工作的基础上研究不

同解码策略对层次短语系统中集成树到串模型的影

响．为了确保文章论述的完整性，这里首先简要描述

１１８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

本文所使用的基本解码框架．

如第２节所述，在规则抽取之后，我们可以得到

一个合并后的ＳＣＦＧ规则集和一个树到串规则集，

其中每条树到串规则与ＳＣＦＧ规则集中的某一条规

则相对应．而解码器就是要利用这些规则完成对输

入句子的翻译．层次短语解码器通常可以被看作是

一种源语言的“分析”装置与目标语“生成”装置的组

合，也就是说层次短语解码器会利用翻译规则的源

语言端对输入的源语言句子进行匹配（对应“分析”

过程），之后才生成目标语译文（对应“生成”过程）．

实现层次短语解码器通用的框架为：

（１）首先，用ＳＣＦＧ规则对输入的句子进行匹

配，并把可匹配的规则加入到相应的分析单元（或者

跨度）的规则列表上．

（２）之后，用自底向上的分析算法利用这些规

则构建一种超图，其中超图的每个边对应一条规则，

每一个节点对应一个分析单元（或者跨度）．

（３）最后在超图上计算各种模型的得分，并输

出模型得分最高的一个或者多个翻译推导．

上述过程的第（２）步和第（３）步还可以使用剪枝

技术来提高系统运行的效率．实际上，对于当今的层

次短语系统和基于句法的系统，解码算法都遵循上

面所描述的框架．图２的下半部给出了该解码框架

的示例．其中，在解码的第（２）步和第（３）步，大多数

翻译系统都可以共享相同的算法，只是所使用的具

体剪枝方法和模型得分计算方式有所不同．而不同

系统的主要区别体现在第（１）步，即利用何种策略匹

配翻译规则．一般来说有两种基本策略可以使用：

①基于词串的规则匹配．这种方法只考虑了输

入句子的字符串信息，将翻译规则匹配到输入句子

的相应单词串上．比如图３（ａ）给出了一个基于词串

的规则匹配实例，其中整个匹配过程只参考规则源

语言端的字符串和输入词串，不考虑任何的句法结

构信息．这个过程可以被广泛地用于层次短语系统，

同时也可以在部分句法系统中使用．对句法翻译规

则（如树到串翻译规则）进行基于词串的规则匹配，

需要将翻译规则的源语言端转化为一种词串表现形

式，之后的过程与图３（ａ）所描述的过程完全一致．

图３　基于词串（ａ）和基于树（ｂ）的匹配实例

②基于树的规则匹配．这种规则匹配方法只针

对规则源语言端有树结构的翻译模型，如树到串翻

译模型和树到树翻译模型．这种规则匹配方法要求

解码器的输入为句法树．之后检查规则的源语言端

是否与某个树片段相同，如果有可以匹配的树片段，

则称规则命中，之后可以把规则加入到树片段的根

节点所对应的分析单元（或者跨度）的规则列表中．

上述两种规则匹配策略各有优缺点：基于词串

的规则匹配简单直接，但是由于可能匹配的规则数

量巨大，解码器的运行效率相对较低；而基于树的规

２１８计　　算　　机　　学　　报２０１６年

则匹配可以利用树结构过滤掉大量的不符合句法约

束的规则匹配结果，解码器速度较快，但是由于解码

空间受限，解码器的翻译效果通常不是非常理想．针

对以上问题，本文设计了多种面向ＳＣＦＧ规则和树

到串规则的规则匹配策略，下面进行详述．

３２　规则匹配策略

３．２．１　基于词串和基于树的混合策略

这种策略是最简单直接的一种规则匹配策略，

在文献［１１］中也有讨论．其基本思想是：用基于词串

的匹配处理所有Ｈｉｅｒｏ抽取能获取到的规则，即类

型１规则；用基于树的匹配处理所有Ｈｉｅｒｏ抽取无

法获取而树到串系统能够获取得到的规则，即类

型２规则．处理类型１规则时，只需要复用基线层次

短语解码器的规则匹配模块即可．唯一需要注意的

是，如果一条规则可以匹配一个子树片段所覆盖的

字符串，那么就可以移除系统的跨度限制．也就是

说，如果规则匹配符合源语言句法结构，我们就不考

虑任何规则匹配的跨度限制．处理类型２规则时，首

先利用每条类型２规则所对应的树到串规则对输入

句法树进行基于树的规则匹配，如果匹配成功就将

所对应的ＳＣＦＧ规则加入到相应的规则列表中．对

两种类型规则匹配结束后，整个解码流程直接复用

基线系统的相应模块即可．

３．２．２　基于词串和模糊匹配的混合策略

上述规则匹配方法的优点是简单直接．它在复

用基线系统的同时（处理类型１规则），可以使用十

分高效的基于树的匹配方法去处理额外的树到串翻

译规则．但是，基于树的匹配方法一般要求对树结构

进行严格匹配，即规则的源语言必须与某个子树完

全对应才表明匹配成功．由于句法结构的多样性和

句法分析结果中的错误，这种“精确”匹配的方式可

能会过滤掉一些可以生成很好翻译结果的规则，因

此我们考虑使用一种模糊的规则匹配方法［１７１９］来处

理类型２规则，而仍然复用基线系统来处理类型１

规则．

基于树的模糊匹配思想非常简单．给定一个规

则源语言端和一个树片段，我们可以忽略一些信息

进行匹配．具体来说有３个层次：

（１）句法标记泛化．这个方法就是把一些句法

标记泛化为一个通用的类别．在本文的工作中，我们

仅考虑将所有的名词短语和名词词性标记泛化为

ＮＰ，同时将动词短语和动词词性标记泛化为ＶＰ．这

样就可以使得更多的规则得到匹配，而不会因为仅

仅在词性标记上的小区别从而导致匹配失败．

（２）树结构泛化．这里我们可以直接使用文献

［１８］和文献［１９］中的思想，在进行树片段匹配的时

候忽略除边界节点以外的结构，也就是说只考虑树

片段的根和叶子节点，而忽略树的内部结构．这么做

的好处是可以在不改变句法分析结果的条件下使用

更加多样的树片段进行规则匹配，进而增加规则的

使用率．

（３）句法标记和树结构同时泛化，即同时考虑

上面两种泛化方法．

使用以上的模糊匹配策略可以更加灵活地对规

则进行匹配．比如，对于如下的树到串规则

ＶＰ（ＰＰ（Ｐ（对）狓１：ＮＮ）狓２：ＶＶ）→狓２ｗｉｔｈ狓１

我们无法使用精确匹配的方式将其应用于图３（ｂ）

所示的实例中，但是如果使用句法标记的泛化，我们

可以将规则中的ＮＮ视为ＮＰ，将ＶＶ视为ＶＰ，这

样就可以采用图３（ｂ）所示的方式进行规则匹配．

３．２．３　基于词串的单一匹配策略

实际上３．２．１节和３．２．２节所讨论的方法的区

别仅在于是否使用模糊匹配来使用类型２规则，而

对于类型１规则的处理都是一样的．它们本质上都需

要对输入的句法树进行规则匹配．这样类型２规则的

匹配还是会受到输入句法树结构的约束，从而导致翻

译推导空间的减小．正如３．１节开始所描述的，我们

可以使用基于词串的匹配策略来使用树到串规则，

也就是说在构建翻译推导森林的过程中，考虑所有

潜在的源语言句法分析结果．这样可以得到较大的

搜索空间，进而增加生成高质量翻译结果的几率．

基于词串的单一匹配策略实际上就是使用同一

种（基于词串的）规则匹配策略来使用类型１和类型２

规则．对于源语言端包含连续变量的类型２规则，我

们可以使用规则二叉化的方式将其分解，之后在解

码时动态组装即可．

值得注意的是：如果使用基于词串的解码方法，

对于树到串规则的使用，系统的效率是很低的．这主

要是由于树到串规则会引入许多非词汇化规则（对

应一部分类型２规则），这会大大增加翻译推导空间

的大小，进而增加系统的运行时间．对于这个问题，

我们对除了胶水规则以外的非词汇化规则进行了剪

枝，同时只使用了少量数据进行树到串规则抽取，这

使得系统仍然可以在相对较高的翻译速度下运行．

为了对比本文研究的不同规则匹配策略，图４进一

步给出了每种策略的示意．

３１８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

图４　基于树的精确规则匹配

３３　特　征

本文的基线层次短语系统使用的是ＮｉｕＴｒａｎｓ

开源工具包［２０］中的ＮｉｕＴｒａｎｓ．Ｈｉｅｒａｒｃｈｙ系统．本文

使用了如下９个基础特征：双向翻译概率、双向词汇

权重、翻译长度惩罚、规则个数惩罚、短语翻译规则

个数惩罚、胶水规则个数惩罚、语言模型得分．除了

以上特征之外，本文还考虑了文献［１１］中的若干个

额外的特征，包括：

（１）树到串规则指示特征．这类特征是二值特

征，用来指示ＳＣＦＧ规则所对应的树到串规则类型．

对于解码中使用的每一条ＳＣＦＧ规则，树到串规则

指示特征包括是否对应树到串规则、是否对应非词

汇化树到串规则和是否对应在源语言端包含连续变

量的树到串规则．

（２）句法规则翻译概率．实际上句法系统通常

包含一些独特的特征．比如，句法树生成概率等．因

此我们也在树到串规则上使用了若干句法系统所使

用的特征［１１］．

此外，我们也设计了若干特征来进一步对规则

中树结构的匹配进行建模，即

（３）树匹配特征．这类特征是二值特征，并且仅

在使用基于树的规则匹配时发挥作用．对于解码中

使用的每一条ＳＣＦＧ规则，树匹配特征包括是否通

过精确树匹配使用该规则和是否通过模糊树匹配使

用该规则．

在解码时，每条ＳＣＦＧ规则都会有上述这些特

征．对于９个基础特征，我们采用了传统的方法对其

进行计算［１２］，即对双向翻译概率使用相对频率进行

计算、双向词汇权重使用词对齐进行计算、语言模型

概率使用回退的方法进行计算、翻译长度及规则个

数等特征进行直接计算即可．这里需要额外处理的

是类型２规则．由于该类型规则在基线系统的规则

表里没有出现，因此它所对应的双向翻译概率需要

重新计算．本文采用了一个简单而直接的策略：单独

对类型２规则采用相对频率估计方法来计算规则翻

译概率．也就是说，在抽取得到基础ＳＣＦＧ规则和树

到串规则后，我们会额外对从树到串规则转换而来

的类型２规则进行翻译概率计算．对于类型２规则

的其他基础特征，我们直接使用基线系统的相应模

块进行计算即可，无需改动．

对于树到串规则使用的特征（树到串规则指示特

征、句法规则翻译概率、树匹配特征），类型１规则均

使用固定的缺省值：指示型特征的缺省值为１，概率

型特征的缺省值为１０－６．对于以上这些特征，不同的

类型２规则会有区别．比如，有如下两条树到串规则：

ＶＰ（ＰＰ（Ｐ（对）狓１：ＮＮ）狓２：ＶＶ）→狓２ｗｉｔｈ狓１，

ＶＰ（Ｐ（对）狓１：ＩＰ狓２：ＶＰ）→狓２ｗｉｔｈ狓１．

它们会对应同一条类型２规则

犡→〈对犡１犡２，犡２ｗｉｔｈ犡１〉．

在进行解码时，如果分别使用了以上两条树到串规

则（假如匹配上了源语言树结构），它们所对应的基

础特征是相同的，即规则犡→〈对犡１犡２，犡２ｗｉｔｈ

４１８计　　算　　机　　学　　报２０１６年

犡１〉所对应的基础特征．但是，以上两条树到串规则

所对应的其他特征，如句法规则翻译概率等是不同

的，这样也就区分了两条规则的使用情况．也就是

说，对于同一个ＳＣＦＧ规则，即使对应多个不同的树

到串规则，解码时也会动态的选择匹配的树到串规

则计算树到串规则指示特征、句法规则翻译概率、树

匹配特征．解码器匹配了哪条树到串规则，就用该规

则计算相应的（句法规则）特征．最终，解码器会选择

模型得分最高的翻译推导，并输出相应的译文．

４　实　验

４１　实验设置

本文的实验在ＮＩＳＴ汉英翻译任务上进行．实

验的训练用包括２７０万句对的双语数据①．首先，我

们用ＧＩＺＡ＋＋工具②对训练数据进行双向词对齐，

之后利用“ｇｒｏｗｄｉａｇｆｉｎａｌａｎｄ”启发性算法对双向

词对齐结果进行对称化处理．此外，我们使用了英语

ＧＩＧＡＷＯＲＤ的Ｘｉｎｈｕａ部分（ＬＤＣ２００３Ｔ０５）和双

语数据的目标语部分训练了一个基线系统的５元语

言模型．我们同时使用ｎｅｗｓｗｉｒｅ和ｗｅｂ两类数据完

成系统的调优和测试．系统的开发集合（用于调优）包

括ｎｅｗｓｗｉｒｅ数据１１８１句和ｗｅｂ数据４８３句．测试

数据包括所有ＮＩＳＴＭＴ０８、ＭＴ１２、ＭＴ０８ｐｒｏｇｒｅｓｓ

中的ｎｅｗｓｗｉｒｅ和ｗｅｂ测试数据，总计ｎｅｗｓｗｉｒｅ数

据１７７９句和ｗｅｂ数据１７６８句．所有训练集、开发

集和测试集中的中文句子都使用ＢｅｒｋｅｌｅｙＰａｒｓｅｒ③

得到句法分析结果，并以短语结构树形式输出．

我们选择ＮｉｕＴｒａｎｓ．Ｈｉｅｒａｒｃｈｙ作为实验的基

线系统．该系统的解码器基于ＣＫＹ算法，并同时使

用了束剪枝和立方剪枝来对解码器进行提速．特征权

重利用最小错误率训练在开发集上自动调优．所有的

翻译规则都通过标准的Ｈｉｅｒｏ抽取方法［１２］得到．在

解码和基本短语规则抽取中允许的最大跨度为１０．

对于树到串规则抽取，我们使用了ＮｉｕＴｒａｎｓ

提供的ＧＨＫＭ规则抽取模块．类似于文献［１１］，我

们在训练数据中的一个高质量子集（５０万句）上抽

取了树到串翻译规则，其中每条规则最多允许５个

终结符和５个变量．此外，我们利用翻译概率对树到

串规则进行了剪枝，剪枝包括丢弃正向翻译概率小

于０．０２的词汇化规则和丢弃正向翻译概率小于

０．１０的非词汇化规则．

４２　实验结果

本文实验需要回答３方面问题：

（１）在本文实验系统ＮｉｕＴｒａｎｓ上，树到串模型

强化层次短语模型是否可以有效地提高翻译性能？

（２）不同的解码方法对翻译准确性影响如何？

（３）在树到串模型强化层次短语模型中，还有

哪些因素（如树结构、搜索空间等）可以影响翻译性

能，这些因素与本文所研究的解码方法的最优组合

是什么？

针对以上３个问题，我们开展了实验．表１给出

了不同实验的ＢＬＥＵ值［２１］．下面是对具体实验结果

的说明．

表１　不同翻译系统的犅犔犈犝值

编号系统

Ｎｅｗｓｗｉｒｅ（ＢＬＥＵ４／％）

ＴｕｎｅＭＴ０８ＭＴ１２ＭＴ０８．ｐＡｌｌｔｅｓｔ

（１１８１）（６９１）（４００）（６８８）（１７７９）

Ｗｅｂ（ＢＬＥＵ４／％）

ＴｕｎｅＭＴ０８ＭＴ１２ＭＴ０８．ｐＡｌｌｔｅｓｔ

（４８３）（６６６）（４２０）（６８２）（１７６８）

ｅｘｐ０１标准层次短语基线系统３６．７０３２．５０３３．３０３１．９０３２．７９　３１．８０２３．９０２１．９０２５．００２４．２１　

ｅｘｐ０２ｅｘｐ０１＋句法软约束（特征）３６．８４３２．４４３３．３０３１．９９３２．８３３１．９１２３．８４２２．０６２５．０３２４．２６

ｅｘｐ０３ｅｘｐ０１＋去掉跨度约束３６．８０３２．５４３３．３２３１．９９３２．８６３１．８５２３．９５２１．８６２５．００２４．２２

ｅｘｐ０４ｅｘｐ０３＋树到串规则３７．１９３３．０６３３．７９３２．２７３３．２０３２．２４２４．２０２２．４３２５．４２２４．５９

ｅｘｐ０５ｅｘｐ０４＋树到串特征３７．２６３３．１５３３．８２３２．３９３３．２８３２．３５２４．２７２２．４０２５．５１２４．６４

ｅｘｐ０６ｅｘｐ０４＋模糊句法标记３７．２４３３．２０３３．９０３２．３９３３．３２３２．４６２４．３３２２．４３２５．５９２４．７０

ｅｘｐ０７ｅｘｐ０４＋模糊树结构３７．４５３３．３９３３．９７３２．６６３３．４９３２．６０２４．４６２２．４８２５．６５２４．８１

ｅｘｐ０８ｅｘｐ０４＋模糊树结构＆句法标记３７．４７３３．４２３４．０８３２．７８３３．５７３２．６７２４．５３２２．５５２５．８０２４．９０

ｅｘｐ０９ｅｘｐ０４＋基于词串的解码３７．６１３３．６３３４．１２３２．８８３３．６９３２．７０２４．６４２２．７７２５．８１２４．９９

ｅｘｐ１０源语言树约束３４．９０３１．０４３１．９８３０．０５３１．２４３１．２０２２．５６２０．０７２３．２７２２．５６

ｅｘｐ１１ｅｘｐ０８在跨度＞１０上进行３７．１２３３．２０３３．６３３２．２０３３．１７３２．２２２４．２４２２．３３２５．２７２４．５３

ｅｘｐ１２ｅｘｐ０８＋左孩子优先二叉化３７．９５３４．０１３４．６６３３．４７３４．１３３３．０４２４．９９２３．０４２６．２４２５．４４

ｅｘｐ１３ｅｘｐ０８＋右孩子优先二叉化３７．６８３３．５７３４．２３３２．９３３３．７０３２．７７２４．６０２２．８７２５．８６２５．０７

ｅｘｐ１４ｅｘｐ０８＋基于森林的二叉化３７．９９３５．９６３４．６２３３．５５３４．１５３３．０２２４．９４２３．０７２６．３０２５．４８

注：或表示测试集上相比基线ｅｘｐ０１有显著性提高，狆＜０．０５或０．０１．

４．２．１　基线系统（ｅｘｐ０１～０３）

为了进行有效的对比，我们选择了３种基线系统：

ｅｘｐ０１标准的层次短语系统，即ＮｉｕＴｒａｎｓ．Ｈｉｅｒａｒｃｈｙ；

ｅｘｐ０２在ｅｘｐ０１的基础上加入句法软约束，这里我

５１８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

①

②

③

ＬＤＣ编号：ＬＤＣ２０００Ｔ４６、ＬＤＣ２０００Ｔ４７、ＬＤＣ２０００Ｔ５０、

ＬＤＣ２００３Ｅ１４、ＬＤＣ２００５Ｔ１０、ＬＤＣ２００４Ｔ０８、ＬＤＣ２００３Ｅ０７、

ＬＤＣ２００５Ｔ０６．

ｈｔｔｐ：／／ｃｏｄｅ．ｇｏｏｇｌｅ．ｃｏｍ／ｐ／ｇｉｚａｐｐ／

ｈｔｔｐｓ：／／ｃｏｄｅ．ｇｏｏｇｌｅ．ｃｏｍ／ｐ／ｂｅｒｋｅｌｅｙｐａｒｓｅｒ／

们使用了文献［５］中描述的性能较好的特征集

｛ＮＰ＋，ＮＰ＝，ＶＰ＋，ＶＰ＝，ＰＰ＋，ＰＰ＝，ＸＰ＋，

ＸＰ＝｝；ｅｘｐ０３在ｅｘｐ０１的解码中当源语片段符合

句法结构时除去跨度限制，这种方法可以被看作是

对源语言句法信息在层次短语系统中最简单的

使用．

从表１可以看出，加入句法软约束（ｅｘｐ０２）在多

个测试集上可以带来少量的性能提升．这个结果一

方面肯定了源语言句法信息对机器翻译有帮助，另

一方面也说明了简单的增加句法特征（而不引入新

的规则或增大解码空间）并不能十分有效地提升层

次短语系统的性能．此外，在ｅｘｐ０３中，除去跨度限

制会带来一定的ＢＬＥＵ提升．这个实验结果也间接

地验证了文献［４］中的发现：减少跨度约束对基于句

法约束的系统是有帮助的．

４．２．２　树到串＋层次短语（ｅｘｐ０４和ｅｘｐ０５）

进一步，我们实验证明了层次短语结合树到串

翻译方法的有效性．这部分实验使用的是３．２．１节

所描述的基于串和树的混合解码方法，即文献［１１］

中所使用的解码方法．ｅｘｐ０４和ｅｘｐ０５分别表示不

使用或者使用３．３节所描述的新特征的实验结果．

可以看出在ｎｅｗｓｗｉｒｅ和ｗｅｂ两类数据上，加入树到

串翻译规则分别带来了０．６和０．５个ＢＬＵＥ值的提

升（ｅｘｐ０４ｖｓ．ｅｘｐ０１）．而新特征又带来少量的ＢＬＥＵ

提升（ｅｘｐ０５ｖｓ．ｅｘｐ０４）．尽管文献［１１］和本文使用

了不同的机器翻译系统（ＨｉＦＳＴｖｓ．ＮｉｕＴｒａｎｓ），本

实验仍然得到了与文献［１１］一样的发现：加入句

法规则和特征可以有效地提升层次短语系统的

性能．

４．２．３　解码方法对比（ｅｘｐ０５～０９）

实验ｅｘｐ０５～０９对应了不同的解码方法的结

果，其中ｅｘｐ０５使用了３．２．１节所描述的基于词串

和树的混合解码策略，因此可以作为这组对比的基

线．ｅｘｐ０６～０９对应使用基于树的规则模糊匹配的

结果．可以看出模糊匹配对基于树的解码非常有帮

助，可以进一步提高性能．具体来说，树结构的模糊

匹配更为有效，而句法标记的模糊匹配带来的性能

提升较少．这可能是由于中文的结构过于复杂，因此

需要更加宽松的树结构约束来帮助系统得到较大的

翻译推导空间．而中文的句法标记相对稳定（而且

数量不是很大），因此对句法标记进行模糊匹配并不

能带来很大的翻译性能的提升．ｅｘｐ０９给出了基于

串的解码的结果，可以看出该方法取得了最好的

ＢＬＥＵ值，这也说明了增大解码器的搜索空间非常

有助于系统性能的提升．由于ｅｘｐ０９的优异性能，在

随后的实验中我们选择了基于串的解码方法作为缺

省的解码方法进行研究．

此外，我们测量了不同解码方法（基线系统、加

入树到串规则和特征、使用基于串的解码、加入二叉

化方法）的运行速度．表２给出了系统在所有数据上

处理的平均速度．可以看出在引入句法规则后，系统

的翻译速度只下降了１０％，这和我们预期结果是一

致的：引入不太多的句法规则并不会过多的增加系

统负担．另一方面，在引入基于串的解码后，系统的

运行速度有一半的下降．这个结果主要是由于基于

串的解码要对所有跨度进行计算，系统并不能像基

于树的解码那样通过句法结构来约束解码空间，因

此系统的负担较重．

表２　不同解码方法的运行速度

编号系统速度

ｅｘｐ０１标准层次短语基线系统１．１１句／秒

ｅｘｐ０５＋树到串特征和规则１．０１句／秒

ｅｘｐ０９＋基于串的解码０．４７句／秒

ｅｘｐ１２＋左孩子优先二叉化０．４２句／秒

４．２．４　搜索空间大小对翻译性能的影响（ｅｘｐ１０～１１）

本文工作的基本思想是增大翻译的搜索空间使

得翻译系统能够在更大范围上搜索最优解．类似于

文献［１１］，我们对ｅｘｐ０９的系统进行了限制，强制所

有翻译推导必须遵循源语言树结构（所有使用的规

则必须覆盖完整的句法树结构），不遵循句法树约束

的翻译假设被移除．ｅｘｐ１０给出了这个系统的实验

结果．可以看出，限制搜索空间的大小会显著地降

低系统的翻译性能，比如，ｅｘｐ１０相比于ｅｘｐ０９和

ｅｘｐ０１都有非常明显的ＢＬＥＵ下降．

另一方面，本文的引言部分就描述了解码中使

用跨度约束会产生的问题，特别是对于跨度很大的

翻译片段，这个约束可能会造成负面影响．使用源语

言句法树结构能够消除跨度约束对系统的影响．为

了进一步验证这个结论，我们设计了一组新的实验，

我们仅在跨度大于１０时使用本文所提出的层次短

语和树到串相结合的方法，而在小于等于１０的跨度

上仍使用基线的层次短语翻译模型．如ｅｘｐ１１所示，

仅在大于１０的跨度上使用本文所提出的方法对翻

译系统仍然会有帮助（ｅｘｐ１１ｖｓ．ｅｘｐ０１）．但是相比

在所有跨度上使用该方法，ｅｘｐ１１的性能提升还是

相对较小（ｅｘｐ１１ｖｓ．ｅｘｐ０９）．这个实验现象表明该

６１８计　　算　　机　　学　　报２０１６年

方法在小的跨度上对翻译系统也很有帮助．

４．２．５　树二叉化对翻译性能的影响（ｅｘｐ１２～１４）

树二叉化是常用且有效的改进句法系统的方

法［２２］，因此在本文的实验中我们也尝试了使用树二

叉化技术对系统进行改进．ｅｘｐ１２～１４给出了经过

左孩子优先、右孩子优先及基于森林的二叉化处理

后的源语言句法树对应的翻译性能．结果显示左孩

子优先的二叉化方法（ｅｘｐ１２）可以非常有效地提高

翻译性能，在ｎｅｗｓｗｉｒｅ和ｗｅｂ数据上相比ｅｘｐ０１

它可以提高１．３和１．２个ＢＬＥＵ点．相比之下，右

孩子优先的二叉化方法（ｅｘｐ１３）对性能提高没有太

大帮助．这个结果和相关工作的结论［１１，２２］是比较一

致的，即机器翻译系统倾向于使用特定类型的二叉

化方法．ｅｘｐ１４的结果表明在已经二叉化的句法树中

引入基于森林的二叉化方法并不能十分有效地增加

可用规则的数量．这个现象也表明当系统（如ｅｘｐ１１）

已经包含了很大数量的翻译推导时，简单地增加规

则数量很难进一步提高翻译系统的性能．

４３　分析：规则使用率

除了考察系统输出结果的ＢＬＥＵ值，本文也研

究了在最优翻译推导中对于不同类型规则使用的情

况．我们发现改进后的系统非常喜欢使用树到串规

则．比如，在ｅｘｐ０４中，最优推导中的９．３％的规则

是类型２规则．当我们引入左孩子优先二叉化之后

（ｅｘｐ０８），这个比例上升至１４．５％．进一步，我们又

研究了最优推导中可以使用基于树的匹配方法进行

匹配的规则．如表３所示，当树到串规则增多时，系

统会更加倾向于使用基于树的匹配方法来使用规

则，这个结果和我们的预期结果也是相符的．

表３　不同规则匹配方法被使用的比例

规则匹配方法基线／％＋树到串／％＋树二叉化／％

基于串１００７３５５

基于树０２７４５

４４　分析：句法模型的规模对翻译性能的影响

本文中另一个需要分析的问题是句法模型的

规模对翻译性能的影响．在前面的实验中，我们只

使用了整个双语数据的２０％来获取树到串翻译规

则，而使用了１００％的双语数据训练获取层次短语

模型．这样做的主要目的是减少句法模型训练的开

销，同时减少解码器的负担．一个很自然的问题是增

加句法模型训练数据是否可以进一步提高翻译性

能？为了回答这个问题，我们研究了不同规模句法模

型训练数据对最终翻译效果的影响．如图５的ｔ２ｓ＋

ＳＣＦＧ曲线所示，为树到串模型引入更多的训练数

据能为本文的系统带来少量的性能提升，但是

ＢＬＥＵ的增长非常有限．这也说明，在本文所研究的

解码框架下，层次短语模型已经为翻译提供了很好

的基础，而句法规则可以作少量的补充，但是大量的

句法规则并不能带来显著的性能提升．为了进行对

比，我们也给出了不同数据规模下树到串系统的

性能对比结果，即图５中的ｔ２ｓ曲线．可以发现树

到串系统对训练数据的规模更加敏感，当数据大

于２００万句（所有数据８０％以上）时，结果才趋于

稳定．

图５　不同树到串模型训练数据规模下不同系统的ＢＬＥＵ值

进一步，我们研究了不同规模的模型在解码

中所使用的不同类型的规则的比例，包括３类规

则：类型１规则、类型２中的非词汇化规则和词汇

化规则．如图６所示，随着树到串模型训练数据的

增加，系统也会使用更多的类型２规则．有趣的

是，非词汇化规则被使用的几率基本上没有变化，

而词汇化规则随着数据的增多有更加频繁的使用

趋势．这个结果也反映了一个现象：翻译中使用的

非词汇化规则应该是相对稳定的，它们可以从

“不太大”的训练数据中学习到，而不需要像词汇

化规则那样依赖很大的训练集才能取得较好的

效果．

７１８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

图６　不同树到串模型训练数据规模下各种类型规则使用的比例

４５　分析：句法特征狏狊．句法规则

在前面的实验中，我们对比了源语言句法信

息在层次短语系统中的不同使用方法，包括源语

言句法软约束／特征（ｅｘｐ０２）、源语言句法硬约束

（ｅｘｐ１０）、本文所使用的引入额外句法规则的方法

（ｅｘｐ０４～０９、ｅｘｐ１１～１４）．从实验结果中不难看出：

（１）利用源语言结构信息来约束解码过程，会降低

翻译质量；（２）使用句法软约束／特征在本文所使用

的实验系统上并不能带来很大的性能提升．

对于上面提到的第一个现象，已经在４．２．４节

进行了分析．实际上，本文工作的出发点就是引入句

法规则来增加优质翻译推导的数量．比如，在多种情

况下（如ｎｅｗｓｗｉｒｅ数据与ｗｅｂ数据、原始ＣＴＢ形

式句法树ｖｓ．二叉句法树），该方法均带来了稳定的

性能提升．相比之下，简单的引入不同形式的句法特

征对系统性能的影响非常有限．这不仅体现在传统

句法软约束方法上（ｅｘｐ０１ｖｓ．ｅｘｐ０２），同时在引入

本文所描述的句法特征上也有类似现象（ｅｘｐ０４ｖｓ．

ｅｘｐ０５）．进一步分析实验结果发现句法特征对于不

同的系统（或设置）效果有着较大的差别．这里，我们

设计了一组额外的实验：调整ｎ元语言模型中ｎ的

值，对比基线系统（ｅｘｐ０１）、源语言句法软约束系统

（ｅｘｐ０２）和引入句法规则的系统（ｅｘｐ０４）的ＢＬＥＵ

值．这个实验的目的是调整语言模型的强弱构造不

同性能的基线系统，从而比较句法信息的不同使用

方法对机器翻译性能的影响．图７给出了实验结果．

比较有趣的现象是：在不同性能的基线系统性能下，

增大解码空间会带来相对稳定的提升（ｅｘｐ０４）；而使

用源语言句法特征对于性能较低的系统似乎更加有

效，但是对于较强的系统性能提升很有限．这反映了

机器翻译中特征相互作用的问题：对于一个特征，它

所带来的优势可能会被其他强势特征所覆盖，所带

来的性能提升可能会被淹没．这本质上也反应了统

计学习中模型复杂度的观点：对于一个复杂的“强”

模型／系统，需要引入更加复杂的特征和更多的训练

数据才能带来一定的性能提升；相反，对于一个相对

简单的“弱”模型／系统，引入同样的特征就可以增加

模型的判别能力，进而带来较大的性能提升．

图７　基线、句法软约束、引入句法规则方法对比

此外，我们也分析了句法软约束对于不同类型

句法结构的区分能力，也就是句法特征能在多大程

度上指示翻译结果的好坏．这可以进一步地解释

ｅｘｐ０２相对ｅｘｐ０１性能提升有限的原因．所谓句法

软约束，实质上就是度量了不同类型句法结构与解

码中使用的翻译规则的兼容性．比如，一个规则所

覆盖的源语言跨度与某个句法结构有交叉，称作

ｃｒｏｓｓ，这时系统应该倾向给一个惩罚；而一个规则

８１８计　　算　　机　　学　　报２０１６年

所覆盖的源语言跨度与句法结构兼容，称作ｍａｔｃｈ，

这时系统应该倾向给一个奖励．表４给出了基线系

统的１ｂｅｓｔ和Ｏｒａｃｌｅ翻译结果／推导①所对应不同

源语言句法结构的“交叉”和“兼容”的比例．这里我

们给出了前１５个占比最大的句法类型的结果．可以

看出，对于１ｂｅｓｔ结果句法交叉和兼容的情况之间

并没有明显的比例差别，这个现象在Ｏｒａｃｌｅ结果中

也类似．这也说明了简单的使用“交叉”和“兼容”两

种句法特征并不能很好的区分翻译结果的好坏．比

如，在我们的实验中Ｏｒａｃｌｅ结果比１ｂｅｓｔ结果高８

个ＢＬＥＵ点，但是二者的句法“交叉”和“兼容”比例

并没有明显差别，也就说在本文的基线系统中句法

软约束并没有很好的判别能力．这个现象也从某个

角度解释了为什么实验ｅｘｐ０２中句法兼容性特征并

不是非常有效．

表４　不同句法结构的兼容性分析

句法标记（比例）１ｂｅｓｔ翻译推导

Ｍａｔｃｈ／％Ｃｒｏｓｓ／％

Ｏｒａｃｌｅ翻译推导

Ｍａｔｃｈ／％Ｃｒｏｓｓ／％

ＮＰ（３８．８％）５０．３４９．７５０．４４９．６

ＶＰ（２２．２％）１１．３８８．７１１．４８８．６

ＩＰ（１３．０２％）１７．９８２．１１７．９８２．１

ＡＤＶＰ（５．５２％）９９．６０．４９９．６０．４

ＱＰ（４．４２％）５１．２４８．８５２．６４７．４

ＰＰ（３．２６％）２０．７７９．３２０．２７９．８

ＣＬＰ（２．９１％）９４．４５．６９４．５５．５

ＣＰ（２．４２％）１４．８８５．２１５．８８４．２

ＡＤＪＰ（２．１５％）９３．６６．４９４．１５．９

ＤＮＰ（１．８４％）１８．７８１．３１７．９８２．１

ＬＣＰ（１．４５％）２２．５７７．５２２．３７７．７

ＤＰ（１．２８％）８２．８１７．２８３．８１６．２

ＶＲＤ（０．１７％）４０．９５９．１３９．５６０．５

ＶＣＤ（０．１２％）３７．０６３．０３２．６６７．４

相比源语句法特征的“不稳定”表现，引入句法

规则来增大解码空间显示出相对稳定的性能提升能

力．图７中，在不同性能的基线系统上该方法都可以

带来０．６个点的ＢＬＥＵ提升．这个现象反映出一个

事实：增大解码空间与加入更多特征是改善统计机

器翻译系统的两个维度，二者可以从不同角度改进

层次短语系统，它们之间并没有矛盾．简言之，引入

句法规则可以相对稳定的提高系统性能，而句法特

征在较低性能的系统上会有更好的表现．

５　相关工作

近些年语言学驱动的方法在机器翻译中受到了

广泛关注．特别是基于源语言句法信息的翻译模型

在许多任务中都显示出巨大的潜力．比如，如树到串

模型［１３１４］很适合处理长距离依赖和复杂的句法结构

调序问题．另一方面，层次短语翻译模型［１］本身并不

依赖任何语言学句法信息，但是也可以描述句子的

层次结构，并且在很多任务中表现出非常优异的

性能．

在机器翻译研究领域，有若干方法利用源语言

句法信息对层次短语模型进行改进．比如，文献［１０］

描述了一种联合解码方法．这种方法来源于传统的

系统融合任务．在这项工作中，层次短语模型和树到

串模型在解码过程中进行融合，构建更大的翻译推

导空间．这样两个模型可以在一个解码框架下实现．

文献［１１］使用更加简单的框架在层次短语系统中使

用树到串翻译模型：比如它只需要修改翻译文法，而

几乎不用修改解码器就能实现该方法，而文献［１０］

的方法需要对解码器进行较大的改动，此外也需要

开发新的最小错误率训练模块．但是，本文的工作与

文献［１０］和文献［１１］的工作有明显区别：（１）本文

重点研究了不同的解码策略对树到串模型在层次短

语系统中的集成的影响，而这些解码方法并没有在

相关工作中进行研究；（２）本文利用丰富的实验结

果在ＮｉｕＴｒａｎｓ开源系统上对比了不同方法解码方

法的有效性，分析了多种因素对翻译性能的影响，并

找出了最优的组合方式；（３）本文分析了翻译解码

中各种规则的使用情况，并研究了树到串模型训练

数据规模对翻译性能的影响．

其他的一些工作专注于在层次短语系统中引入

句法约束作为新的特征．比如，文献［５］和文献［４］分

别在层次短语系统中尝试了句法软约束和硬约束来

对翻译推导与源语言树结构的兼容性进行建模．但

是，我们发现（见表１），这些约束特征在本文的基线

系统上没有显示出优势，这也是本文研究新的句法

信息在层次短语系统中的集成方法的出发点之一．

除此之外，还有一些工作在ＳＣＦＧ规则中引入句法

标记来间接地在层次短语系统中使用句法信息［６９］．

但是这些工作均使用了类似于Ｈｉｅｒｏ系统的短语／

层次短语抽取方法．相比之下，本文所使用的框架方

法是直接使用ＧＨＫＭ进行规则抽取，因此不受传

统短语／层次短语抽取中的各种约束的限制．更重要

的是，我们的方法在解码中可以更加充分地利用源

语言句法树的层次结构信息，这些在传统的基于

ＳＣＦＧ的系统中是无法使用的．

９１８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

① 这里１ｂｅｓｔ结果是指机器翻译系统模型得分最高的翻译结

果．ｏｒａｃｌｅ结果是指机器翻译系统前２５６个得分最高的翻

译结果中ＢＬＥＵ值最高的结果，ｏｒａｃｌｅ结果一定程度上反映了系统的翻译性能上线，即系统在当前模型和解码方法下可能达到的最好性能．

６　总结及展望

本文重点研究了在层次短语系统中集成源语言

句法信息的解码问题，并采用了多种解码方法来有

效地增加系统的搜索空间．在ＮＩＳＴＭＴ０８１２汉英

机器翻译测试集上该方法超过了基线系统１．２个

ＢＬＥＵ点以上．本文分析了该框架下影响性能的主

要因素，并发现基于串的解码结合树二叉化方法可

以得到最大的性能提升．此外，本文还分析了解码中

各种规则的使用比例，并研究了树到串模型训练数

据规模对翻译结果的影响．在未来的工作中，我们拟

对树到树模型在层次短语系统中的有效集成进行深

入研究．

致　谢　首先感谢《计算机学报》的编辑老师和各位

评委专家对本文工作所提出的宝贵修改意见．同时

感谢东北大学自然语言处理实验室的李强在本文实

验系统的准备中所提供的帮助，感谢杜权在本文实

验数据准备、加工方面所提供的帮助，感谢高瑜泽和

杨春杰对本文文字内容的改进意见！

参考文献

［１］ＣｈｉａｎｇＤ．Ａｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｍｏｄｅｌｆｏｒｓｔａｔｉｓｔｉｃａｌ

ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆ

ｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）．Ａｎｎ

Ａｒｂｏｒ，ＵＳＡ，２００５：２６３２７０

［２］ＧａｌｌｅｙＭ，ＨｏｐｋｉｎｓＭ，ＫｎｉｇｈｔＫ，ＭａｒｃｕＤ．Ｗｈａｔ’ｓｉｎａ

ｔｒａｎｓｌａｔｉｏｎｒｕｌｅ？／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎ

ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓａｎｄｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆ

ｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｏｆＣｏｍｐｕｔａ

ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＨＬＴＮＡＡＣＬ）．ＮｅｗＹｏｒｋ，ＵＳＡ，２００４：

２７３２８０

［３］ＧａｌｌｅｙＭ，ＧｒａｅｈｌＪ，ＫｎｉｇｈｔＫ，ｅｔａｌ．Ｓｃａｌａｂｌｅｉｎｆｅｒｅｎｃｅｓａｎｄ

ｔｒａｉｎｉｎｇｏｆｃｏｎｔｅｘｔｒｉｃｈｓｙｎｔａｘｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ

ａｎｄｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ／ＡＣＬ）．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２００６：

９６１９６８

［４］ＬｉＪｕｎｈｕｉ，ＲｅｓｎｉｋＰ，ＤａｕｍéＩＩＩＨ．Ｍｏｄｅｌｉｎｇｓｙｎｔａｃｔｉｃａｎｄ

ｓｅｍａｎｔｉｃｓｔｒｕｃｔｕｒｅｓｉｎｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｔｒａｎｓｌａｔｉｏｎ／／

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＬａｎｇｕａｇｅ

ＴｅｃｈｎｏｌｏｇｉｅｓａｎｄｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎ

ＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｏｆＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ

（ＨＬＴＮＡＡＣＬ）．Ａｔｌａｎｔａ，ＵＳＡ，２０１３：５４０５４９

［５］ＭａｒｔｏｎＹ，ＲｅｓｎｉｋＰ．Ｓｏｆｔｓｙｎｔａｃｔｉｃｃｏｎｓｔｒａｉｎｔｓｆｏｒｈｉｅｒａｒｃｈｉｃａｌ

ｐｈｒａｓｅｄｂａｓｅｄｔｒａｎｓｌａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅ

ｏｎＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ

ＬｉｎｇｕｉｓｔｉｃｓａｎｄＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＡＣＬＨＬＴ）．

Ｃｏｌｕｍｂｕｓ，ＵＳＡ，２００８：１００３１０１１

［６］ＣｈｉａｎｇＤ．Ｌｅａｒｎｉｎｇｔｏｔｒａｎｓｌａｔｅｗｉｔｈｓｏｕｒｃｅａｎｄｔａｒｇｅｔ

ｓｙｎｔａｘ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎ

ｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）．Ｕｐｐｓａｌａ，Ｓｗｅｄｅｎ，

２０１０：１４４３１４５２

［７］ＨｏａｎｇＨ，ＫｏｅｈｎＰ．Ｉｍｐｒｏｖｅｄｔｒａｎｓｌａｔｉｏｎｗｉｔｈｓｏｕｒｃｅｓｙｎｔａｘ

ｌａｂｅｌｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＪｏｉｎｔＦｉｆｔｈＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌ

ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎａｎｄＭｅｔｒｉｃｓＭＡＴＲ．Ｕｐｐｓａｌａ，Ｓｗｅｄｅｎ，

２０１０：４０９４１７

［８］ＺｈａｏＢｉｎｇ，ＡｌＯｎａｉｚａｎＹ．Ｇｅｎｅｒａｌｉｚｉｎｇｌｏｃａｌａｎｄｍｏｎｌｏｃａｌ

ｗｏｒｄｒｅｏｒｄｅｒｉｎｇｐａｔｔｅｒｎｓｆｏｒｓｙｎｔａｘｂａｓｅｄｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ

／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎ

ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）．Ｈａｗａｉｉ，ＵＳＡ，

２００８：５７２５８１

［９］ＺｏｌｌｍａｎｎＡ，ＶｅｎｕｇｏｐａｌＡ．Ｓｙｎｔａｘａｕｇｍｅｎｔｅｄｍａｃｈｉｎｅ

ｔｒａｎｓｌａｔｉｏｎｖｉａｃｈａｒｔｐａｒｓｉｎｇ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＷｏｒｋｓｈｏｐ

ｏｎＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００６：

１３８１４１

［１０］ＬｉｕＹａｎｇ，ＭｉＨａｉｔａｏ，ＦｅｎｇＹａｎｇ，ＬｉｕＱｕｎ．Ｊｏｉｎｔｄｅｃｏｄｉｎｇ

ｗｉｔｈｍｕｌｔｉｐｌｅｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌ

ＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ

（ＡＣＬ）．Ｓｉｎｇａｐｏｒｅ，２００９：５７６５６６

［１１］ＸｉａｏＴｏｎｇ，ｄｅＧｉｓｐｅｒｔＡ，ＺｈｕＪｉｎｇｂｏ，ＢｙｒｎｅＢ．Ｅｆｆｅｃｔｉｖｅ

ｉｎｃｏｒｐｏｒａｔｉｏｎｏｆｓｏｕｒｃｅｓｙｎｔａｘｉｎｔｏｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄ

ｔｒａｎｓｌａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＴｅｃｈｎｉｃａｌＰａｐｅｒ．Ｄｕｂｌｉｎ，

Ｉｒｅｌａｎｄ，２０１４：２０６４２０７４

［１２］ＣｈｉａｎｇＤ．Ｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｔｒａｎｓｌａｔｉｏｎ．Ｃｏｍｐｕｔａ

ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００７，３３（２）：２０１２２８

［１３］ＨｕａｎｇＬｉａｎｇ，ＫｎｉｇｈｔＫ，ＪｏｓｈｉＡ．Ｓｔａｔｉｓｔｉｃａｌｓｙｎｔａｘｄｉｒｅｃｔｅｄ

ｔｒａｎｓｌａｔｉｏｎｗｉｔｈｅｘｔｅｎｄｅｄｄｏｍａｉｎｏｆｌｏｃａｌｉｔｙ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ｔｈｅＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｉｎ

ｔｈｅＡｍｅｒｉｃａｓ（ＡＭＴＡ）．Ｃａｍｂｒｉｄｇｅ，ＵＳＡ，２００６：６６７３

［１４］ＬｉｕＹａｎｇ，ＬｉｕＱｕｎ，ＬｉｎＳｈｏｕｘｕｎ．Ｔｒｅｅｔｏｓｔｒｉｎｇａｌｉｇｎｍｅｎｔ

ｔｅｍｐｌａｔｅｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄ

ＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ／ＡＣＬ）．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２００６：６０９６１６

［１５］ＭａｔｕｓｏｖＥ，ＵｅｆｆｉｎｇＮ，ＮｅｙＨ．Ｃｏｍｐｕｔｉｎｇｃｏｎｓｅｎｓｕｓｔｒａｎｓｌａｔｉｏｎ

ｆｒｏｍｍｕｌｔｉｐｌｅｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｓｙｓｔｅｍｓｕｓｉｎｇｅｎｈａｎｃｅｄ

ｈｙｐｏｔｈｅｓｅｓａｌｉｇｎｍｅｎｔ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆ

ｔｈｅＥｕｒｏｐｅａｎＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｏｆＣｏｍｐｕ

ｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＥＡＣＬ）．Ｔｒｅｎｔｏ，Ｉｔａｌｙ，２００６：３３４０

［１６］ＲｏｓｔｉＡＶＩ，ＭａｔｓｏｕｋａｓＳ，ＳｃｈｗａｒｔｚＲ．Ｉｍｐｒｏｖｅｄｗｏｒｄｌｅｖｅｌ

ｓｙｓｔｅｍｃｏｍｂｉｎａｔｉｏｎｆｏｒｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）．Ｐｒａｇｕｅ，ＣｚｅｃｈＲｅｐｕｂｌｉｃ，２００７：３１２３１９

［１７］ＣｍｅｊｒｅｋＭ，ＭｉＨａｉｔａｏ，ＺｈｏｕＢｏｗｅｎ．Ｆｌｅｘｉｂｌｅａｎｄｅｆｆｉｃｉｅｎｔ

ｈｙｐｅｒｇｒａｐｈｉｎｔｅｒａｃｔｉｏｎｓｆｏｒｊｏｉｎｔｈｉｅｒａｒｃｈｉｃａｌａｎｄｆｏｒｅｓｔｔｏ

０２８计　　算　　机　　学　　报２０１６年

ｓｔｒｉｎｇｄｅｃｏｄｉｎｇ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌ

ＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）．Ｓｅａｔｔｌｅ，

ＵＳＡ，２０１３：５４５５５５

［１８］ＺｈｕＪｉｎｇｂｏ，ＸｉａｏＴｏｎｇ．Ｉｍｐｒｏｖｉｎｇｄｅｃｏｄｉｎｇｇｅｎｅｒａｌｉｚａｔｉｏｎｆｏｒ

ｔｒｅｅｔｏｓｔｒｉｎｇｔｒａｎｓｌａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇ

ｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）Ｓｈｏｒｔ

Ｐａｐｅｒｓ．Ｐｏｒｔｌａｎｄ，ＵＳＡ，２０１１：４１８４２３

［１９］ＸｉｏｎｇＨａｏ，ＬｉｕＹａｎｇ，ＬｉｕＱｕｎ．Ｆｕｚｚｙｍａｔｃｈｉｎｇｆｏｒｔｒｅｅ

ｂａｓｅｄｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎ

Ｐｒｏｃｅｓｓｉｎｇ，２０１１，２５（２）：６６７１（ｉｎＣｈｉｎｅｓｅ）

（熊皓，刘洋，刘群．模糊匹配在树到串翻译模型中的应

用．中文信息学报，２０１１，２５（２）：６６７１）

［２０］ＸｉａｏＴｏｎｇ，ＺｈｕＪｉｎｇｂｏ，ＺｈａｎｇＨａｏ，ＬｉＱｉａｎｇ．ＮｉｕＴｒａｎｓ：

Ａｎｏｐｅｎｓｏｕｒｃｅｔｏｏｌｋｉｔｆｏｒｐｈｒａｓｅｂａｓｅｄａｎｄｓｙｎｔａｘｂａｓｅｄ

ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅ

ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）：Ｓｙｓｔｅｍ

Ｄｅｍｏｎｓｔｒａｔｉｏｎｓ．Ｊｅｊｕ，Ｋｏｒｅａ，２０１２：１９２４

［２１］ＰａｐｉｎｅｎｉＫ，ＲｏｕｋｏｓＳ，ＷａｒｄＴ，ＺｈｕＷｅｉＪｉｎｇ．ＢＬＥＵ：Ａ

ｍｅｔｈｏｄｆｏｒａｕｔｏｍａｔｉｃｅｖａｌｕａｔｉｏｎｏｆｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ／／

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒ

ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）．Ｐｈｉｌａｄｅｌｐｈｉａ，ＵＳＡ，２００２：

３１１３１８

［２２］ＷａｎｇＷｅｉ，ＭａｙＪ，ＫｎｉｇｈｔＫ，ＭａｒｃｕＤ．Ｒｅｓｔｒｕｃｔｕｒｉｎｇ，

ｒｅｌａｂｅｌｉｎｇ，ａｎｄｒｅａｌｉｇｎｉｎｇｆｏｒｓｙｎｔａｘｂａｓｅｄｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ．

ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２０１０，３６（２）：２４７２７７

犡犐犃犗犜狅狀犵，ｂｏｒｎｉｎ１９８２，Ｐｈ．Ｄ．，

ｌｅｃｔｕｒｅｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ

ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎａｎｄｎａｔｕｒａｌｌａｎｇｕａｇｅ

ｐｒｏｃｅｓｓｉｎｇ．

犣犎犝犑犻狀犵犅狅，ｂｏｒｎｉｎ１９７３，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ

ｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎａｎｄｎａｔｕｒａｌ

ｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ．

犅犪犮犽犵狉狅狌狀犱

Ｔｈｅｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｍｏｄｅｌｉｓｏｎｅｏｆｔｈｅｍｏｓｔ

ｓｕｃｃｅｓｓｆｕｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ（ＭＴ）ｍｏｄｅｌｓ．Ｒｅｃｅｎｔｌｙ

ａｕｇｍｅｎｔｉｎｇｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｓｙｓｔｅｍｓｗｉｔｈｓｏｕｒｃｅ

ｓｙｎｔａｘｉｓｏｆｉｎｔｅｒｅｓｔｂｙｍａｎｙＭＴｒｅｓｅａｒｃｈｅｒｓ．Ｉｎｔｈｉｓｗｏｒｋ，

ｗｅｆｏｌｌｏｗｔｈｅｓｉｍｐｌｅｐａｒａｄｉｇｍｏｆｉｍｐｒｏｖｉｎｇｈｉｅｒａｒｃｈｉｃａｌ

ｐｈｒａｓｅｂａｓｅｄｍｏｄｅｌｓ：ｗｅｄｏｎｏｔｒｅｓｏｒｔｔｏｓｏｕｒｃｅｌａｎｇｕａｇｅ

ｓｙｎｔａｃｔｉｃｃｏｎｓｔｒａｉｎｔｓｏｒｓｙｓｔｅｍｃｏｍｂｉｎａｔｉｏｎｔｅｃｈｎｉｑｕｅｓ，ｂｕｔ

ｉｎｓｔｅａｄｐｒｅｓｅｎｔａｓｉｍｐｌｅｂｕｔｅｆｆｅｃｔｉｖｅａｐｐｒｏａｃｈｔｏｉｎｔｅｇｒａｔｉｎｇ

ｔｒｅｅｔｏｓｔｒｉｎｇｒｕｌｅｓｉｎｔｏａｎｅｘｉｓｔｉｎｇｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄ

ｓｙｓｔｅｍ．Ｗｅｒｅｇａｒｄｔｈｅｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅｂａｓｅｄｍｏｄｅｌａｓ

ｔｈｅｂａｓｅｍｏｄｅｌａｎｄｏｎｌｙａｐｐｌｙｔｒｅｅｔｏｓｔｒｉｎｇｒｕｌｅｓｔｏｗｈｅｒｅ

ｔｈｅｙｃａｎｃｏｎｔｒｉｂｕｔｅ．Ｔｈｅｃｏｎｔｒｉｂｕｔｉｏｎｏｆｔｈｉｓｗｏｒｋｉｓｔｈａｔｗｅ

ａｄｄｒｅｓｓｔｈｅｄｅｃｏｄｉｎｇｉｓｓｕｅａｎｄｐｒｅｓｅｎｔｓｅｖｅｒａｌｄｅｃｏｄｉｎｇ

ｓｔｒａｔｅｇｉｅｓｕｎｄｅｒｔｈｅａｂｏｖｅｆｒａｍｅｗｏｒｋ，ｉｎｃｌｕｄｉｎｇｔｒｅｅｂａｓｅｄ

ｅｘａｃｔｄｅｃｏｄｉｎｇ，ｔｒｅｅｂａｓｅｄｆｕｚｚｙｄｅｃｏｄｉｎｇａｎｄｓｔｒｉｎｇｂａｓｅｄ

ｄｅｃｏｄｉｎｇ．Ｗｅｃａｒｒｙｏｕｔｅｘｐｅｒｉｍｅｎｔｓｏｎｗｅｌｌｅｓｔａｂｌｉｓｈｅｄａｎｄ

ｌａｒｇｅｓｃａｌｅＣｈｉｎｅｓｅＥｎｇｌｉｓｈｔｒａｎｓｌａｔｉｏｎｔａｓｋｓ．Ｅｘｐｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｉｔｏｕｔｐｅｒｆｏｒｍｓａｓｔｒｏｎｇｂａｓｅｌｉｎｅｏｖｅｒ１．３

ａｎｄ１．２ＢＬＥＵｐｏｉｎｔｓｏｎｔｈｅｎｅｗｓｗｉｒｅａｎｄｗｅｂｄａｔａｒｅｓｐｅｃ

ｔｉｖｅｌｙ．

ＴｈｉｓｗｏｒｋｗａｓｓｕｐｐｏｒｔｅｄｉｎｐａｒｔｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌ

ＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（Ｇｒａｎｔｓ６１２７２３７６，６１３０００９７

ａｎｄ６１４３２０１３），ｔｈｅＣｈｉｎａＰｏｓｔｄｏｃｔｏｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎ

（Ｇｒａｎｔ２０１３Ｍ５３０１３１）．

１２８４期肖桐等：基于树到串模型强化的层次短语机器翻译解码方法

基于树到串模型强化的层次短语...

Documents