[发明专利]双语语句对齐方法及装置有效
申请号: | 200810242112.2 | 申请日: | 2008-12-31 |
公开(公告)号: | CN101488126A | 公开(公告)日: | 2009-07-22 |
发明(设计)人: | 张玉志 | 申请(专利权)人: | 深圳市点通数据有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 深圳市维邦知识产权事务所 | 代理人: | 黄 莉 |
地址: | 518000广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语 语句 对齐 方法 装置 | ||
技术领域
本发明涉及计算机翻译技术,尤其涉及一种双语语句对齐方法及装置。
背景技术
随着资讯的快速膨胀和经济贸易的全球一体化,国际间的沟通日趋频繁,快速对大量的外文资料根据需要进行整理、转化和使用,已是一种普遍而紧迫的的需求。在这种需求带动之下,用机器翻译系统来协助人们快速翻译、建档,也就成为无法避免的趋势,计算机辅助翻译应运而生。
然而,目前机器翻译系统与人工翻译仍存在巨大差距。机器翻译系统表现不佳的一个很重要的原因在于,在于资源的缺乏,无论采用何种机器翻译方法,都需要大量大规模的知识资源,这些知识资源被存储在语料库中。虽然网络的快速发展,提供了大量而丰富的双语对照电子文献,为机器辅助翻译提供了坚实的语料基础。但是人工添加和丰富语料库,仍然无疑是一项庞大而复杂的工作,一个好的机器翻译系统所必备的资源往往需要经年累月的积累。
发明内容
本发明所要解决的技术问题是:提供一种用于建设机器翻译语料库的双语语句对齐方法,该方法可大大提高对齐的效率、加快语料库的建设速度。
本发明进一步所要解决的技术问题是:提供一种用于建设机器翻译语料库的双语语句对齐装置,该装置可大大提高对齐的效率、加快语料库的建设速度。
为解决上述技术问题,本发明采用如下技术方案:
一种用于建设机器翻译语料库的双语语句对齐方法,包括以下步骤:
分句步骤,根据分句符将第一语种和第二语种分别划分为多个语句;
分词步骤,将每个语句根据词典划分为多个词段组合;
对齐步骤,找到每对相互匹配的第一语种语句和第二语种语句,并将所述相互匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
所述对齐步骤具体包括有:
区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,在所述匹配步骤中,通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句i;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
本发明还公开了相应的用于建设机器翻译语料库的双语语句对齐装置,该装置包括:
分句单元,用于根据分句符将第一语种和第二语种分别划分为多个语句;
分词单元,与所述分句单元相连,用于将每个语句根据词典划分为多个词段组合;
对齐单元,与所述分词单元相连,找到每个第一语种语句匹配的第二语种语句,并将所述互相匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
所述对齐单元具体包括有:
区域划分单元,用于分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配单元,与所述区域划分单元相连,用于计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行单元,与所述匹配单元相连,用于将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,所述匹配单元通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市点通数据有限公司,未经深圳市点通数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810242112.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于计算机网络的通过词义查词的系统及其方法
- 下一篇:软件接口测试方法和装置