[发明专利]双语对齐的方法、装置、电子设备及可读存储介质在审
申请号: | 202110963607.X | 申请日: | 2021-08-20 |
公开(公告)号: | CN113887190A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 周玉;刘阳;李小青 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F40/211;G06F40/58 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语 对齐 方法 装置 电子设备 可读 存储 介质 | ||
1.一种双语对齐的方法,其特征在于,包括:
获取原始中文文本和原始英文文本,所述原始中文文本和所述原始英文文本为含义对应的文本;
将所述原始中文文本进行分句,获取所述原始中文文本的句子集合;
将所述原始英文文本进行分句,获取所述原始英文文本的句子集合;
将所述原始中文文本的句子集合通过翻译,获取所述原始中文文本的句子集合的英文译文句子集合;
基于所述英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将所述原始中文文本的句子集合和所述原始英文文本的句子集合分别划分为若干个对应的片段;以及
将所述对应的片段进行对齐。
2.根据权利要求1所述的双语对齐的方法,其特征在于,获取原始中文文本和原始英文文本,所述原始中文文本和所述原始英文文本为含义对应的文本,包括:
通过从文档中抽取原始中文文本和原始英文文本。
3.根据权利要求1或2所述的双语对齐的方法,其特征在于,将所述原始中文文本进行分句,获取所述原始中文文本的句子集合,包括:
通过所述原始中文文本中的标点符号进行分句,获取所述原始中文文本的句子集合。
4.根据权利要求1至3所述的双语对齐的方法,其特征在于,将所述原始英文文本进行分句,获取所述原始英文文本的句子集合,包括:
通过所述原始英文文本中的标点符号进行分句,获取所述原始英文文本的句子集合。
5.根据权利要求1所述的双语对齐的方法,其特征在于,将所述原始中文文本的句子集合通过翻译,获取所述原始中文文本的句子集合的英文译文句子集合,包括;
所述原始中文文本的句子集合通过翻译引擎翻译,获取所述原始中文文本的句子集合的英文译文句子集合。
6.根据权利要求1所述的双语对齐的方法,其特征在于,基于所述英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将所述原始中文文本的句子集合和所述原始英文文本的句子集合分别划分为若干个对应的片段,包括:
寻找第一个锚点:将所述英文译文句子集合中的第i个句子en[i]与所述原始英文文本的句子集合中的j到j+M范围内的句子{eno[j]~eno[j+M]}逐一计算相似度,如果最大相似度大于相似度阈值m,则按照最大相似度取{eno[j]~eno[j+M]}中对应的句子的下标的值赋值给offset,并将锚点位置为记为i、j=j+offset,保留锚点位置保留(i,j);
寻找下一个锚点:在所述英文译文句子集合中为第i+L个句子en[i+L]与所述原始英文文本的句子集合中的j到j+M范围内的句子eno[j]~eno[j+M]逐一计算相似度,如果最大相似度不大于相似度阈值m,则未找到,则将所述英文译文句子集合中第i+L+1个句子en[i+L+1]与所述原始英文文本的句子集合中的j到j+M范围内的句子{eno[j]~eno[j+M]}逐一计算相似度,如果最大相似度大于相似度阈值m,则按照最大相似度取{eno[j]~eno[j+M]}中对应的句子的下标的值赋值给offset,并将锚点位置记为i=i+L+1、j=j+offset,保留第二个锚点位置(i,j);
依据上述处理依次逐个寻找锚点,直到英文译文句子集合en遍历完成;以及
基于所述锚点,对原始中文文本的句子集合zh和原始英文文本的句子集合eno进行片段划分;
其中,各个参数表示的含义如下:
i:自然数,初始化取值为1,表示第一个句子;
j:自然数,初始化取值为1,表示第一个句子;
L:锚点步长,即选取句子的间隔步长,初始化取值100,可以调整;
M:相似度计算时选取句子范围时的步长,初始化取值500,可以在1到句子集合包含的句子数量的范围内调整;
offset:句子在于句子集合中的位置,初始化为0;
en:英文译文句子集合;
eno:原始英文文本的句子集合;
zh:原始中文文本的句子集合;
m:相似度阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110963607.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多市场主体动态博弈最优决策求解方法
- 下一篇:基于图像的前向主目标检测方法