[发明专利]双语语句对齐方法及装置有效

专利信息
申请号: 200810242112.2 申请日: 2008-12-31
公开(公告)号: CN101488126A 公开(公告)日: 2009-07-22
发明(设计)人: 张玉志 申请(专利权)人: 深圳市点通数据有限公司
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 深圳市维邦知识产权事务所 代理人: 黄 莉
地址: 518000广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 双语 语句 对齐 方法 装置
【说明书】:

技术领域

发明涉及计算机翻译技术,尤其涉及一种双语语句对齐方法及装置。

背景技术

随着资讯的快速膨胀和经济贸易的全球一体化,国际间的沟通日趋频繁,快速对大量的外文资料根据需要进行整理、转化和使用,已是一种普遍而紧迫的的需求。在这种需求带动之下,用机器翻译系统来协助人们快速翻译、建档,也就成为无法避免的趋势,计算机辅助翻译应运而生。

然而,目前机器翻译系统与人工翻译仍存在巨大差距。机器翻译系统表现不佳的一个很重要的原因在于,在于资源的缺乏,无论采用何种机器翻译方法,都需要大量大规模的知识资源,这些知识资源被存储在语料库中。虽然网络的快速发展,提供了大量而丰富的双语对照电子文献,为机器辅助翻译提供了坚实的语料基础。但是人工添加和丰富语料库,仍然无疑是一项庞大而复杂的工作,一个好的机器翻译系统所必备的资源往往需要经年累月的积累。

发明内容

本发明所要解决的技术问题是:提供一种用于建设机器翻译语料库的双语语句对齐方法,该方法可大大提高对齐的效率、加快语料库的建设速度。

本发明进一步所要解决的技术问题是:提供一种用于建设机器翻译语料库的双语语句对齐装置,该装置可大大提高对齐的效率、加快语料库的建设速度。

为解决上述技术问题,本发明采用如下技术方案:

一种用于建设机器翻译语料库的双语语句对齐方法,包括以下步骤:

分句步骤,根据分句符将第一语种和第二语种分别划分为多个语句;

分词步骤,将每个语句根据词典划分为多个词段组合;

对齐步骤,找到每对相互匹配的第一语种语句和第二语种语句,并将所述相互匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;

所述对齐步骤具体包括有:

区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;

匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;

执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;

其中,在所述匹配步骤中,通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:

正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句i;

反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;

比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。

本发明还公开了相应的用于建设机器翻译语料库的双语语句对齐装置,该装置包括:

分句单元,用于根据分句符将第一语种和第二语种分别划分为多个语句;

分词单元,与所述分句单元相连,用于将每个语句根据词典划分为多个词段组合;

对齐单元,与所述分词单元相连,找到每个第一语种语句匹配的第二语种语句,并将所述互相匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;

所述对齐单元具体包括有:

区域划分单元,用于分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;

匹配单元,与所述区域划分单元相连,用于计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;

执行单元,与所述匹配单元相连,用于将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;

其中,所述匹配单元通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:

正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;

反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市点通数据有限公司,未经深圳市点通数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810242112.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top