[发明专利]一种双语最大名词组块分离-融合的翻译方法有效
申请号: | 201310593728.5 | 申请日: | 2013-11-21 |
公开(公告)号: | CN103942192A | 公开(公告)日: | 2014-07-23 |
发明(设计)人: | 黄河燕;史树敏;李业刚 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 最大 词组 分离 融合 翻译 方法 | ||
技术领域
本发明涉及一种双语最大名词组块分离-融合的翻译方法,尤其适用于较长句子的翻译,属于计算机科学中的自然语言处理(NLP)技术领域。
背景技术
最大名词短语(MNP)是指不被其他任何名词短语所包含的名词短语。从句法功能上来看,MNP一般出现在句子的主语或宾语的位置,如果能够很好地识别出句子中所有的MNP,就可以很方便地把握句子的整体结构框架。作为一项重要的应用基础研究,MNP的自动识别与分析对于自然语言处理领域中的许多应用研究,包括句法分析、信息检索、信息抽取、机器翻译等,都具有重要的实践意义。
在计算机语言处理技术领域中,不同语言之间的机器翻译问题本质上还是语言问题,所以机器翻译问题的最终解决也必须依靠语言学知识的运用。语言学知识一般指的是源或目的语言的句法分析结构。典型的基于语言学语法的统计翻译模型是基于树的统计翻译机器翻译模型,指的是在汉语端,或者英语端,或者两端同时利用语言学意义上的句法结构,是统计机器翻译的一种新趋势。
目前,研究人员对MNP和基于树的统计翻译都进行了大量的研究,但是仍然存在诸多的问题。
第一,在基于树的统计机器翻译中,句法分析错误会传递到翻译解码节点,使得翻译准确率严重下降,中文句法分析不尽人意。因此,句法分析问题成为基于树的统计机器翻译的瓶颈。
第二,在基于树的统计翻译模型中,翻译解码时间加上汉语句法分析的时间,其时间复杂度是句子长度的三次方。随着句子的长度增加,翻译时间将明显增长,这对在线翻译的影响显而易见。所以,长句子的翻译一直是个难点。
第三,目前对汉英MNP的识别研究较多,但是由于汉英的语言差异比较大,MNP在机器翻译中的一直没有得到广泛的应用。
发明内容
本发明的目的是为了克服已有技术的缺陷,针对现有基于树的统计机器翻译模型在翻译质量和翻译实时性上的不足,通过定义一种比现有的MNP更具有应用性的双语最大名词组块(BMNC),并在此基础上提出一种双语最大名词组块分离-融合的翻译方法。
本发明方法的基本原理是:采用一种分而治之的翻译策略,把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。首先,对待翻译的句子进行BMNC识别,把所有BMNC抽取出来组成BMNC集合(用BMNCs表示);在原来的句子中,用BMNC的中心词的词性来代替BMNC整体,形成句子骨架。然后,对BMNCs和句子骨架分别进行句法分析。利用BMNC翻译模型翻译BMNC,得到英语BMNCs的n-best输出;利用句子骨架翻译模型翻译句子骨架得到英语句子骨架的n-best输出。最后,融合英语BMNCs和句子骨架,形成最后的翻译结果。
所述BMNC,是指具备双语一致性的MNP。在双语句对中,汉英MNP会存在不完全对译的情况。BMNC不仅是一个完整的句法单元和语义单元,在句子中有稳定的外部修饰结构,还具备双语可互译性和双语识别的一致性。在单语中它可能被其它名词短语包含,但是它不能被可互译的其它名词短语包含。
具体地,本发明方法包括以下步骤:
步骤一、对待翻译的句子进行BMNC识别,并将所有BMNC抽取出来组成BMNC集合;同时,在原来的句子中用BMNC的中心词的词性来代替BMNC整体,形成句子骨架。
首先,从句法树库中随机抽取2000句,提取BMNC并标注其中心词,作为训练语料。通过机器学习的方法,训练BMNC及其中心词的识别模型。然后,利用识别模型,对待翻译的句子进行BMNC及其中心词识别标注,提取句子中所有BMNC并组成BMNC集合——BMNCs,同时,将句子中的BMNC用其中心词词性代替形成句子骨架。
所述识别模型可选用条件随机域模型(CRF)或者支持向量机(SVM)。
所述句法树库可选用宾州句法树库或者清华大学句法树库等。
步骤二、建立BMNC和句子骨架的翻译模型,翻译经步骤一得到的BMNCs和句子骨架。
为了翻译步骤一中得到的BMNCs和句子骨架,首先训练BMNC和句子骨架的翻译模型。其流程如图2所示,具体如下:
在句子级别对齐的语料中抽取对齐的BMNC,建立BMNC平行语料库。首先,分别对汉英句子进行BMNC粗识别,然后对BMNC进行识别对齐修正,最后通过一个贪心算法,得到句对最优的BMNC对集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310593728.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及主题信息库制作系统
- 下一篇:一种纸制包装箱