[发明专利]双语语句对齐方法及装置有效
申请号: | 200810242112.2 | 申请日: | 2008-12-31 |
公开(公告)号: | CN101488126A | 公开(公告)日: | 2009-07-22 |
发明(设计)人: | 张玉志 | 申请(专利权)人: | 深圳市点通数据有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 深圳市维邦知识产权事务所 | 代理人: | 黄 莉 |
地址: | 518000广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种双语语句对齐方法,包括以下步骤:分句步骤;分词步骤;对齐步骤;其特征在于,所述对齐步骤具体包括有:区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,并根据所述相互匹配率确定相互匹配的第一语种语句和第二语种语句组合;执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作。本发明还公开了相应的双语语句对齐装置。本发明可大大提高对齐的效率、加快语料库的建设速度。 | ||
搜索关键词: | 双语 语句 对齐 方法 装置 | ||
【主权项】:
1、一种双语语句对齐方法,包括以下步骤:分句步骤,根据分句符将第一语种和第二语种分别划分为多个语句;分词步骤,将每个语句根据词典划分为多个词段组合;对齐步骤,找到每对相互匹配的第一语种语句匹配和第二语种语句,并将所述互相匹配的第一语种语句和第二语种语句对齐;其特征在于,所述对齐步骤具体包括有:区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,并根据所述相互匹配率确定相互匹配的第一语种语句和第二语种语句组合;执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市点通数据有限公司,未经深圳市点通数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810242112.2/,转载请声明来源钻瓜专利网。
- 上一篇:基于计算机网络的通过词义查词的系统及其方法
- 下一篇:软件接口测试方法和装置