[发明专利]一种双向词语对齐方法及装置在审

专利信息
申请号: 201510998012.2 申请日: 2015-12-25
公开(公告)号: CN105630776A 公开(公告)日: 2016-06-01
发明(设计)人: 孙茂松;柳春洋;刘洋;栾焕博;刘奕群;马少平 申请(专利权)人: 清华大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 李相雨
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 双向 词语 对齐 方法 装置
【说明书】:

技术领域

发明涉及机器翻译技术领域,特别是涉及一种双向词语对齐方 法及装置。

背景技术

随着互联网的发展和国际交流的日益深入,人们的语言翻译需 求日益增长。在这种需求的带动之下,用机器翻译系统来协助人们 快速翻译、建档,已成为无法避免的趋势。据Google翻译团队披露, Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻 译量,处理的文字数量相当于一百万册图书。由于互联网中存在的 语言种类多,各语言又具有大量的多义性,并处于时时刻刻的变化 之中,因此,如何为用户提供高质量的翻译服务仍然是一个难题。

词语对齐旨在计算平行文本中词语之间的对应关系,它最早是 作为机器翻译系统的中间结果提出。词语对齐的质量直接影响机器 翻译的质量,因此,词语对齐在机器翻译中起着关键作用。

现有机器翻译系统广泛使用生成式的单向词语对齐模型,其基 本假设是每个目标语言词仅仅与一个源语言词产生对应关系,一个 源语言词可以和零个或多个目标语言词产生对应关系。然而,这种 假设无法很好地对现实中词语对齐的对称性进行建模,更无法统一 处理复杂的词语对齐情况,如一对多、多对一、多对多等。目前, 解决该问题的主要方法是对两个方向的单向词语对齐模型分别进行 训练,训练完成之后使用启发式规则对两个非对称的词语对齐结果 进行合并。

虽然利用启发式规则进行合并的方法能够在一定程度降低词语 对齐的错误率,然而由于对两个方向的单向词语对齐模型是分别进 行训练的,无法解决词语对齐的对称性问题,词语对齐的错误率仍 然较高。

为了解决词语对齐的对称性问题,目前机器翻译系统也有使用 一致性模型,其假设目标语言和源语言的词均为一对一的对齐,即 构建了一个完全对称的模型。虽然一致性模型极大地提高了词语对 齐的精度,但是由于一对一的假设过于强化,降低了词语对齐的召 回率,并且违背了词语对齐的实际情况,对于本身对应关系不好的 语言对效果较差,如在处理一对多、多对一、多对多等复杂的词语 对齐情况时,效果较差。

发明内容

(一)要解决的技术问题

本发明提供一种双向词语对齐方法及装置,以解决现有技术中无 法很好的对词语对齐的对称性进行建模、词语对齐的错误率高,在处 理一对多、多对一、多对多等复杂的词语对齐情况时对齐效果差的问 题。

(二)技术方案

为了解决上述技术问题,本发明提出了以下技术方案。

一方面,本发明提供一种双向词语对齐方法,包括:

A、构建源语言到目标语言的第一词语对齐模型和目标语言到源 语言的第二词语对齐模型;

B、利用一致性评估函数,融合所述第一词语对齐模型和第二词 语对齐模型,构建初始目标函数;

C、利用一致性评估函数,对所述第一词语对齐模型和第二词语 对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的 模型;

D、利用所述优化目标函数及联合训练得到的模型,对平行双语 句对进行词语对齐,得到双向词语对齐结果。

进一步地,所述步骤B前还包括步骤:

构建数据集以及对所述数据集进行预处理;

所述构建数据集包括收集平行双语句对,并将所述双语句对作为 训练语料;

所述对数据集进行预处理包括对数据集中的源语言和目标语言 文本中的句子切分成词、转换大小写和过滤无效字符。

具体地,所述步骤B中的一致性评估函数包括用于对所述第一词 语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一 致性评估函数一;

所述步骤C包括:

C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型 和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对 齐结果a1、目标语言到源语言的第二词语对齐结果a2

C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语 对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性 得分;

C3,将数据集中所有平行双语句对的词语对齐一致性得分相加, 得到目标函数值;

C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函 数值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510998012.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top