[发明专利]一种在线语料对齐方法及系统有效
申请号: | 201610456896.3 | 申请日: | 2016-06-22 |
公开(公告)号: | CN106126506B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 张井;陈件 | 申请(专利权)人: | 上海一者信息科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 201306 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种在线语料对齐方法及系统,该方法包括步骤:解析双语互译文件得到结果文件;对结果文件进行段落调整,使得原文和译文之间段落对照;对原文和译文通过预设断句规则自动进行断句得到原文句子和译文句子,按照预设排列规则,计算得到原文句子和译文句子的排列组合;计算每种原文句子和译文句子排列组合对应的句子相似度,选取相似度最大的排列组合作为最终的句句对齐结果。本发明有助于提高对齐准确率。 | ||
搜索关键词: | 一种 在线 语料 对齐 方法 系统 | ||
【主权项】:
1.一种在线语料对齐方法,其特征是:包括步骤:解析双语互译文件得到结果文件;对结果文件进行段落调整,使得原文和译文之间段落对照;对原文和译文通过预设断句规则自动进行断句得到原文句子和译文句子,按照预设排列规则,计算得到原文句子和译文句子的排列组合;计算每种原文句子和译文句子排列组合对应的句子相似度,选取相似度最大的排列组合作为最终的句句对齐结果;所述按照预设排列规则,计算得到原文句子和译文句子的排列组合的步骤包括:计算得到原文句子的排列组合情况的集合,根据原文句子的每种排列组合,使用插空法求解每种排列组合对应的译文句子排列组合;所述的原文句子为中文句子,所述译文句子为英文句子时;中文句子最多可以有两个句子合并,在插空法求解英文句子对应的排列组合时,英文句子最多可以有三个句子合并;使用BLEU算法计算得到原文句子和译文句子的排列组合之间的句子相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海一者信息科技有限公司,未经上海一者信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610456896.3/,转载请声明来源钻瓜专利网。
- 上一篇:太阳能剪板机
- 下一篇:一种基于代数演算的中间代码优化方法