[发明专利]双语语句对齐方法及装置有效
申请号: | 200810242112.2 | 申请日: | 2008-12-31 |
公开(公告)号: | CN101488126A | 公开(公告)日: | 2009-07-22 |
发明(设计)人: | 张玉志 | 申请(专利权)人: | 深圳市点通数据有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 深圳市维邦知识产权事务所 | 代理人: | 黄 莉 |
地址: | 518000广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语 语句 对齐 方法 装置 | ||
1.一种用于建设机器翻译语料库的双语语句对齐方法,包括以下步骤:
分句步骤,根据分句符将第一语种和第二语种分别划分为多个语句;
分词步骤,将每个语句根据词典划分为多个词段组合;
对齐步骤,找到每对相互匹配的第一语种语句和第二语种语句,并将所述相互匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
其特征在于,所述对齐步骤具体包括有:
区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,在所述匹配步骤中,通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
2.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述预设的区域划分规则为二分区域法,所述二分区域法包括以下步骤:
预设步骤,设定一个最大比较区域;
等分步骤,将所述第一语种或第二语种的语句按语句数等分为两个比较区域,并将等分后剩下的语句划入所述两个比较区域中的前一个;
保存步骤,将划分结果存入区域划分链表;
递归步骤,对所述区域链表中上一次划分的每个比较区域重复执行上述等分步骤和保存步骤,直到所述区域划分链表中上一次划分的最小的比较区域小于所述设定的最大比较区域。
3.如权利要求1或2所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述匹配步骤还包括:
将找到相互最大匹配率的语句组合存入匹配链表中;
将未找到相互最大匹配率的语句分别存入第一语种未匹配链表、第二语种未匹配链表,等待下次寻找。
4.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述比较步骤之后还包括有:
以上述相互最大匹配率为基础,分别计算该第一语种语句i与其前、后邻句的组合与所述第二语种语句j的相互最大匹配率;以及
以上述相互最大匹配率为基础,分别计算该第二语种语句j与其前、后邻句的组合与所述第一语种语句i的相互最大匹配率;
取上述五种相互最大匹配率中的最大值,具有该最大值的第一语种语句和第二语种语句即为最终确定的相互匹配率最大的语句组合。
5.如权利要求4所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,通过以下方法计算语句的匹配率:
将第一/二语种语句通过查询词典翻译成第二/一语种后,以其组成语句的词语与对应的第二/一语种比较区域内的语句中的词语进行逐个比较;
若比较结果相同,则去除该词语、并根据该词语的特性给匹配词语数加一个值,否则,继续执行下一个词语比较,直到对应的两个语句中的词语两两比较结束;
将匹配词语数乘以2后,除以正执行对齐操作的两个语句的词语总个数,得出匹配率,并将该匹配率存入匹配率表。
6.如权利要求2-4中任一项所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述匹配步骤之后还包括有:
区域重设步骤,将所述设定的最大比较区域修改为一个更大的值后,重新对所述第一语种和第二语种分别进行区域划分,并对所述重新划分后的比较区域内位于未匹配链表中的语句再次执行所述匹配步骤;
循环步骤,重复执行所述区域重设步骤,直到所述最大比较区域大于一个预设的值、或者已经大于文章的语句总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市点通数据有限公司,未经深圳市点通数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810242112.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于计算机网络的通过词义查词的系统及其方法
- 下一篇:软件接口测试方法和装置