[发明专利]一种双语平行语料的句对齐方法有效
申请号: | 201710433746.5 | 申请日: | 2017-06-09 |
公开(公告)号: | CN107391495B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 刘强;彭蓉 | 申请(专利权)人: | 北京同文世纪科技有限公司 |
主分类号: | G06F40/51 | 分类号: | G06F40/51;G06F40/58 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营;曲芳兵 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 平行 语料 对齐 方法 | ||
1.一种双语平行语料的句对齐方法,其特征在于,包括步骤:
A、获取包含有源语言与目标语言的单词互译对及单词互译概率的双语概率分布词典;
B、根据待对齐文本的源语言与目标语言的句子数量,构建动态规划矩阵;
根据所述动态规划矩阵、所述双语概率分布词典确定基于句长信息、单词信息、单词互译概率的不同对齐模式下的评价分数;
C、根据所述评价分数,确定评价分数大于指定阈值的对齐模式下的对齐路径;
D、根据所述对齐路径确定待对齐文本的源语言和目标语言句子的对齐路径序列。
2.根据权利要求1所述的方法,其特征在于,所述步骤A还包括:
将所述双语概率分布词典中的源语言与目标语言的单词转换成数字编号形式存储;
将待对齐文本的源语言及目标语言的句子根据句子顺序编号,分词后的单词根据所述双语概率分布词典中的编号进行单词编号。
3.根据权利要求2所述的方法,其特征在于,所述步骤B包括:
B1、根据待对齐文本源语言与目标语言的句子数量,构建动态规划矩阵MAlign,其中:
cellij表示矩阵中的一个元素,n是源语言句子数,m是目标语言句子数;cellij为一三元组(score,lang1_path,lang2_path),score用于记录当前位置上的对齐模式评价分数,lang1_path用于记录源语言在该位置的对齐路径,lang2_path用于记录目标语言在该位置的对齐路径;其中,对齐路径用于记载对齐模式以及对应的源语言、目标语言的句子标识;
B2、设置一小于n×m的二维窗口;
B3、在待对齐的源语言句子集和目标语言的句子集中移动所述二维窗口;
分别对移动窗口所获得的每个窗口所覆盖的源语言句子集和目标语言的句子集,根据窗口中待对齐文本的源语言与目标语言的句长、句子集中单词集合、句子集单词数、单词出现频率及所述双语概率分布词典计算在该窗口范围内的源语言句子集和目标语言句子集在不同对齐模式下的评价分数。
4.根据权利要求3所述的方法,其特征在于,所述步骤B3中的不同对齐模式下的评价分数的计算公式为:
length_penaltysentence为句长惩罚;penalty_matrix为句长惩罚系数;xtokens为源语言句子中词语集合分布,ytokens为目标语言句子中词语集合分布,lxtokens为源语言句子集单词数,lytokens为目标语言句子集单词数,Xwc为源语言句子集总单词数,xfreq,yfreq分别为当前源语言单词和目标语言单词在其句子集合中的频率值,ywfreq为循环中当前源语言单词在双语概率分布词典中的翻译概率。
5.根据权利要求4所述的对齐方法,其特征在于,所述二维窗口为5×5大小的窗口;
所述句长惩罚系数penalty_matrix为:
Pab表示对应a句源语言句子对b句目标语言句子的对齐模式下的句长惩罚系数。
6.根据权利要求4所述的对齐方法,其特征在于,所述句长惩罚length_penaltysentence的计算公式为:
其中,xlen表示当前模式下窗口中源语言句子集长度,ylen表示当前模式下窗口中目标语言句子集长度,M、N表示加权配重比;L为标准对齐句对句长临界值;δ为一个源语言字符在目标语言中所对应的平均字符数。
7.根据权利要求3所述的对齐方法,其特征在于,还包括:
在同一所述二维窗口下,同一句子存在于多个句子对时,选择其所在句子对准确度值最高的一个句子对进行记录。
8.根据权利要求3所述的对齐方法,其特征在于,还包括:
在不同所述二维窗口下,同一句子存在于多个句子对时,选择其所在句子对准确度值最高的一个句子对进行记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京同文世纪科技有限公司,未经北京同文世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710433746.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:翻译辅助系统
- 下一篇:时间间隔的数据查询方法、装置及索引构建方法、装置