[发明专利]一种基于依存连贯性约束的双语词语自动对齐方法有效
申请号: | 201210175015.2 | 申请日: | 2012-05-30 |
公开(公告)号: | CN102708098A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 宗成庆;王志国 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 连贯性 约束 双语 词语 自动 对齐 方法 | ||
技术领域
本发明属于自然语言处理领域,特别涉及统计机器翻译和双语词语自动对齐的方法。
背景技术
词对齐,顾名思义,就是标识出两种语言的对译句子之间以词语为单位的翻译对应关系。词对齐是统计机器翻译的重要组成部分,它是基于短语的翻译模型抽取短语表和调序规则的基础,甚至是基于句法的翻译模型中抽取句法翻译规则的基础。通常情况下,词对齐的质量直接影响着统计机器翻译系统的翻译质量。
词对齐的方法大体可分为两类:启发式方法和统计方法。启发式方法通过计算词语之间的同现测度函数值来判断词语是否对齐,统计方法则通过建立数学模型来描述双语词语的对齐关系。研究表明,统计方法的词对齐质量要优于启发式方法,因此近些年来统计方法成为词对齐研究的热点。
统计词对齐模型又可以进一步划分为生成式模型和判别式模型。在过去的超过15年的时间中,以IBM的5个词对齐模型以及HMM词对齐模型为代表的生成式模型依然是应用最为广泛的词对齐模型。其原因是:根据这几个模型开发的GIZA++工具包被广泛的使用,以及其在大规模翻译任务上不可比拟的鲁棒性。尽管如此,词对齐的质量依然不能满足统计机器翻译系统的需求,特别是在差异比较大的两种语言上,比如汉语到英语的对齐。研究人员相信限制生成式模型的词对齐质量的主要原因是:它们仅仅使用了双语平行语料进行模型的训练,而没有考虑任何语言学方面的知识。因此,近些年来,研究人员建立了许多融入语言学信息的判别式词对齐模型,并采用手工标注的词对齐语料对模型进行有监督训练。众所周知,判别式模型需要大量的手工标注语料进行模型参数的优化训练。然而手工标注双语词语对齐语料是一项十分枯燥且非常困难的工作,而且在绝大多数语种上还不存在大规模的手工标注词对齐语料,因此目前的判别式词对齐模型都是在规模很小的手工标注语料(小于1000个句子对)上训练的,这使得训练得到的词对齐模型在大规模翻译任务上的适应性很差。虽然参考文献【C.Dyer,J.Clark,A.Lavie and N.A.Smith,2011.Unsupervised word alignment with arbitrary features.In ACL′11,pages409-419.】提出了一种通过无监督的方式进行判别式模型训练的方法,但是该方法在训练阶段需要耗费大量的时间,因此其可处理的数据规模非常有限。
另外一种提高词对齐质量的方法是将句法信息融入到一个生成式词对齐模型当中,然后利用无监督的方式进行模型的训练。这样既可以将句法信息融入到词对齐模型中,又不需要手工标注的词对齐语料进行模型的训练。句法连贯性认为:被源语言端句法树上的子树所控制的短语,在翻译到目标语言端时也趋向于挨在一起。参考文献【Heidi J.Fox,2002.Phrasal cohesion and statistical machine translation.In EMNLP′02,pages304-311】通过统计一个手工标注词对齐语料中源语言端句法子树对齐到目标语言端时的交叉数目来研究句法连贯性,实验结果显示源语言端依存句法树的子树在对齐到目标端时出现交叉的情况较少。因此如果利用依存连贯性来约束双语词对齐的过程,将会有益于提高词对齐的质量。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是生成式词对齐模型没有融入句法信息以及训练判别式词对齐模型需要手工标注的词对齐语料的问题。
(二)技术方案
为了解决上述技术问题,本发明将依存句法树的信息融入到词对齐模型中,利用依存连贯性来约束词对齐的过程,然后利用大规模的双语平行语料(而不是小规模的人工标注语料)进行模型的训练。
具体来说,本发明提供一种基于依存连贯性约束的双语词对齐方法,该方法根据一个双语训练集产生一个词对齐模型,利用该词对齐模型对测试句子对进行词对齐,生成一个词对齐结果,其中所述双语训练集包括多个训练句子对,所述每个训练句子对包括语义相互对应的一个源语言句子和一个目标语言句子;该方法训练一个基于源语言端和目标语言端依存连贯性约束的词对齐模型,并利用该词对齐模型产生关于该测试句子对的满足源语言端和目标语言端依存连贯性约束的词对齐结果,并将这两个词对齐结果进行合并,产生一个满足双语依存连贯性约束的词对齐结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210175015.2/2.html,转载请声明来源钻瓜专利网。