[发明专利]一种基于模糊树到精确树的统计机器翻译方法有效
申请号: | 201110077282.1 | 申请日: | 2011-03-29 |
公开(公告)号: | CN102117270A | 公开(公告)日: | 2011-07-06 |
发明(设计)人: | 宗成庆;张家俊 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 精确 统计 机器翻译 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,是一种新颖的基于模糊树到精确树的统计机器翻译方法。
背景技术
统计机器翻译就是一种利用统计的方法从平行的双语语料库中自动学习出翻译规则,并有效利用这些规则对测试语句进行自动翻译的技术。在统计机器翻译经历了基于词的、基于短语的翻译模型后,基于句法结构的翻译模型成为当前的研究热点,其中基于串到树模型(源语言端是串,目标语言端是句法树)的翻译系统在2009年国际机器翻译评测中取得了最好的成绩,并显著超越了非常流行的基于短语的翻译系统。基于串到树的翻译模型是当前最好的统计机器翻译模型之一。图1示出一个基于串到树翻译模型的例子,例子中所使用的9条规则r1-r9如下所示:每条规则中箭头的左部表示源语言的单词串或者变量序列,箭头表示翻译方向,箭头右部表示目标语言的单词串或者变量序列以及单词串或变量序列所对应的句法标记。标记NP表示名词短语,标记CC表示连词,标记IN表示介词,标记VP表示动词短语,标记PP表示介词短语,标记S表示一个句子。r1表示中文单词“海珊”翻译成英文名词短语“hessein”;r2表示中文单词“和”翻译成英文的连词“and”;r3表示中文单词“和”翻译成英文的介词“with”;r4表示中文的词串“恐怖组织网”翻译成英文的名词短语“terrorist networks”;r5表示中文的词串“建立了联系”翻译成英文的动词短语“established relations”;r6-r9表示合并规则,r6表示如果在翻译过程中我们已经利用三条规则(譬如r1,r2和r4)分别将源语言相邻的三个词串翻译成了目标语言的名词短语(x0:NP)、连词(x1:CC)以及名词短语(x2:NP),现在可以利用规则r6将这三个独立的翻译合并成一个目标译文,并且这个目标译文的句法标记为名词短语NP;r7表示在翻译过程中如果源语言端连续的两个词串翻译成目标语言的名词短语(x0:NP)和动词短语(x1:VP),r7便可顺序合并这个相邻词串的翻译得到目标译文,并且这个目标译文的句法标记是句子S;r8与r7类似都是顺序合并两个相邻词串的翻译;r9表示在翻译过程中源语言端的第一个词串x1翻译成了目标语言的介词短语(x1:PP),第二个词串x0翻译成了目标语言的动词短语(x0:VP),r9便在合并这两个相邻词串的翻译时交换目标译文的位置,也即将表示介词短语的目标译文移至表示动词短语的目标译文后面。
规则集:r1:海珊→NP(hessein) r2:和→CC(and)
r3:和→IN(with)
r4:恐怖组织网→NP(terrorist networks)
r5:建立了联系→VP(established relations)
r6:x0 x1 x2→NP(x0:NP x1:CC x2:NP)
r7:x0 x1→S(x0:NP x1:VP)
r8:x0 x1→PP(x0:IN x1:NP)
r9:x1 x0→VP(x0:VP x1:PP)
测试语句:海珊和恐怖组织网建立了联系,
串到树翻译系统首先利用规则r1,r2,r4与r5将源语言的串转换为目标语言的句法节点:NP,CC,NP与VP;然后利用规则r6将前三个句法节点合并成一个句法节点NP,最后利用规则r7将最新得到的NP节点与前面的VP节点合并得到一颗完整的目标语言句法树。我们将获得的目标语言句法树中的表示终结符的叶节点拼接起来,便得到最终的目标翻译:hessein and terrorist networks established relations。
由于串到树模型在翻译过程中以建立目标语言句法树为目标,因此得到的目标翻译串非常符合目标语言的句法结构,使得目标语言显得比较通顺流畅。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110077282.1/2.html,转载请声明来源钻瓜专利网。