[发明专利]构建树结构及基于树结构的机器翻译系统的方法有效
申请号: | 201210068782.3 | 申请日: | 2012-03-15 |
公开(公告)号: | CN102662932A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 宗成庆;翟飞飞 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 结构 基于 机器翻译 系统 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种构建树结构及基于该树结构的机器翻译系统的方法,特别是利用双语语料进行无监督的树结构推导以构建树结构的方法,以及构建基于该树结构的机器翻译系统的方法。
背景技术
统计机器翻译是一种从平行双语语料库中自动学习翻译规则,并有效利用这些翻译规则对待翻译语句进行自动翻译的技术。统计机器翻译主要包括基于词的模型、基于短语的模型和基于句法分析树结构的模型的翻译系统。其中,基于句法分析树(或称句法树)结构模型的翻译系统是当前机器翻译领域的研究热点。这类模型的翻译系统已经能够取得与短语模型的翻译系统相媲美的翻译质量,有些甚至已经显著地超过了短语模型的翻译系统的性能。
构建基于句法树结构的翻译系统的一般方法是:首先对双语语料进行自动词对齐;然后使用句法分析器对双语句子对的一端(树到串翻译模型、串到树翻译模型)或者两端(树到树翻译模型)进行句法分析,构建句法树;最后利用得到的双语词对齐和句法树,自动抽取翻译规则并用于最终的翻译解码。
然而,在上述过程中,由于自动词对齐和句法分析是分开进行的,就使得双语词对齐和句法树之间产生了巨大的不协调性,即句法分析器只是专注于本身语言的结构合法性,而忽略了词对齐信息和另一端的句子信息;而且由于目前的句法分析器性能和准确度较低,使得大量的分析错误存在于句法树中,导致许多非常有用的翻译规则无法被当前的翻译模型所获取,从而大大降低了翻译规则的覆盖率和最终的翻译质量。
另外,目前的句法分析器一般都需要大量句法树资源的支持,例如宾州树库。但是由于当前人工标注的树库资源十分有限,许多语言对仅仅拥有限定的几个领域的资源,而一旦涉及到其他领域的句子,句法分析器的准确率将大幅降低以至于无法使用。更为严重的是,目前大量的语言对,尤其是小语种,甚至没有对应的句法树资源,这就使得这些语言对根本无法使用这些先进的翻译模型,从而大大限制了这类基于句法树结构的统计机器翻译模型的适用性。
因此,如果能够在不使用任何句法树资源的情况下获取双语句子的树结构,同时考虑双语句子间的对齐信息,用来替代传统的句法分析树结构,并构造一种基于该树结构(非句法分析树结构)的翻译系统,将完全打破句法分析器所带来的缺陷,是一个富有挑战且非常有意义的工作。
发明内容
(一)要解决的技术问题
本发明的解决的技术问题是针对如何有效利用双语语料,在没有任何句法树资源的情况下获取树结构的难题,提出一种利用双语语料进行无监督的树结构推导以构建树结构的方法,以及构建基于该树结构的机器翻译系统的方法,使得在仅仅使用词性标注资源的条件下,能够从双语语料中推导出树结构,并构造基于该树结构的机器翻译系统,提高机器翻译系统的翻译性能并大大扩展其适用性。
(二)技术方案
为了解决上述技术问题,本发明提供一种利用双语语料构建树结构的方法,并将所述树结构用于构建机器翻译系统,所述方法包括如下步骤:对所述双语语料中的双语句子对进行分词、词性标注和词对齐;根据所述词对齐的结果,对所述双语句子对进行双语切分,生成比双语句子对长度更短的双语子句对,并对生成的所述双语子句对重新进行词对齐;根据所述双语子句对词对齐的结果,进行子句合并以获得所述双语句子对的词对齐,并为所述双语句子对构造压缩森林;从所述压缩森林中选择适合于机器翻译的树结构。
根据本发明的优选实施例,当所述双语不包含汉语时,则不进行分词。
根据本发明的优选实施例,对所述双语句子对进行双语切分的方法为:
根据本发明的优选实施例,根据所述词对齐的结果,配对子句必须满足如下规则:A、每个子句的长度大于一个长度阈值;B、双语对齐的子句的长度比小于一个长度比阈值;C、每个子句中,最少有第一百分比的词汇能够对齐到与它配对的子句中;D、从每个子句发出的对齐线中,最多有第二百分比的对齐线(align link)无法对应到与它配对的子句中;E、只在用于断句的标点符号处寻找双语句子对的切分点。
根据本发明的优选实施例,利用所述双语句子对构造压缩森林的步骤包括:构造压缩森林的节点标签;削减与目标语言句子所对应的树结构;根据所述节点标签和与目标语言句子所对应的树结构构造压缩森林。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210068782.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车倒车辅助系统
- 下一篇:用于运行混合动力的驱动系统的方法和装置