[发明专利]一种基于模糊树到精确树的统计机器翻译方法有效

专利信息
申请号: 201110077282.1 申请日: 2011-03-29
公开(公告)号: CN102117270A 公开(公告)日: 2011-07-06
发明(设计)人: 宗成庆;张家俊 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F17/28 分类号: G06F17/28;G06F17/27
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 梁爱荣
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模糊 精确 统计 机器翻译 方法
【说明书】:

技术领域

发明涉及自然语言处理技术领域,是一种新颖的基于模糊树到精确树的统计机器翻译方法。

背景技术

统计机器翻译就是一种利用统计的方法从平行的双语语料库中自动学习出翻译规则,并有效利用这些规则对测试语句进行自动翻译的技术。在统计机器翻译经历了基于词的、基于短语的翻译模型后,基于句法结构的翻译模型成为当前的研究热点,其中基于串到树模型(源语言端是串,目标语言端是句法树)的翻译系统在2009年国际机器翻译评测中取得了最好的成绩,并显著超越了非常流行的基于短语的翻译系统。基于串到树的翻译模型是当前最好的统计机器翻译模型之一。图1示出一个基于串到树翻译模型的例子,例子中所使用的9条规则r1-r9如下所示:每条规则中箭头的左部表示源语言的单词串或者变量序列,箭头表示翻译方向,箭头右部表示目标语言的单词串或者变量序列以及单词串或变量序列所对应的句法标记。标记NP表示名词短语,标记CC表示连词,标记IN表示介词,标记VP表示动词短语,标记PP表示介词短语,标记S表示一个句子。r1表示中文单词“海珊”翻译成英文名词短语“hessein”;r2表示中文单词“和”翻译成英文的连词“and”;r3表示中文单词“和”翻译成英文的介词“with”;r4表示中文的词串“恐怖组织网”翻译成英文的名词短语“terrorist networks”;r5表示中文的词串“建立了联系”翻译成英文的动词短语“established relations”;r6-r9表示合并规则,r6表示如果在翻译过程中我们已经利用三条规则(譬如r1,r2和r4)分别将源语言相邻的三个词串翻译成了目标语言的名词短语(x0:NP)、连词(x1:CC)以及名词短语(x2:NP),现在可以利用规则r6将这三个独立的翻译合并成一个目标译文,并且这个目标译文的句法标记为名词短语NP;r7表示在翻译过程中如果源语言端连续的两个词串翻译成目标语言的名词短语(x0:NP)和动词短语(x1:VP),r7便可顺序合并这个相邻词串的翻译得到目标译文,并且这个目标译文的句法标记是句子S;r8与r7类似都是顺序合并两个相邻词串的翻译;r9表示在翻译过程中源语言端的第一个词串x1翻译成了目标语言的介词短语(x1:PP),第二个词串x0翻译成了目标语言的动词短语(x0:VP),r9便在合并这两个相邻词串的翻译时交换目标译文的位置,也即将表示介词短语的目标译文移至表示动词短语的目标译文后面。

规则集:r1:海珊→NP(hessein)  r2:和→CC(and)

r3:和→IN(with)

r4:恐怖组织网→NP(terrorist networks)

r5:建立了联系→VP(established relations)

r6:x0 x1 x2→NP(x0:NP x1:CC x2:NP)

r7:x0 x1→S(x0:NP x1:VP)

r8:x0 x1→PP(x0:IN x1:NP)

r9:x1 x0→VP(x0:VP x1:PP)

测试语句:海珊和恐怖组织网建立了联系,

串到树翻译系统首先利用规则r1,r2,r4与r5将源语言的串转换为目标语言的句法节点:NP,CC,NP与VP;然后利用规则r6将前三个句法节点合并成一个句法节点NP,最后利用规则r7将最新得到的NP节点与前面的VP节点合并得到一颗完整的目标语言句法树。我们将获得的目标语言句法树中的表示终结符的叶节点拼接起来,便得到最终的目标翻译:hessein and terrorist networks established relations。

由于串到树模型在翻译过程中以建立目标语言句法树为目标,因此得到的目标翻译串非常符合目标语言的句法结构,使得目标语言显得比较通顺流畅。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110077282.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top