[发明专利]双语对齐的方法、装置、电子设备及可读存储介质在审
申请号: | 202110963607.X | 申请日: | 2021-08-20 |
公开(公告)号: | CN113887190A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 周玉;刘阳;李小青 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F40/211;G06F40/58 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语 对齐 方法 装置 电子设备 可读 存储 介质 | ||
本公开提供一种双语对齐的方法,包括:获取原始中文文本和原始英文文本,原始中文文本和原始英文文本为含义对应的文本;将原始中文文本进行分句,获取原始中文文本的句子集合;将原始英文文本进行分句,获取原始英文文本的句子集合;将原始中文文本的句子集合通过翻译,获取原始中文文本的句子集合的英文译文句子集合;基于英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将原始中文文本的句子集合和原始英文文本的句子集合分别划分为若干个对应的片段;以及将对应的片段进行对齐。本公开还提供一种双语对齐的装置、电子设备及可读存储介质。
技术领域
本公开涉及自然语言处理及翻译技术领域,具体涉及一种双语对齐的方法、装置、电子设备及可读存储介质。
背景技术
双语语料资源对于自然语言处理研究的巨大价值已经得到社会各界越来越多的认可。特别是句子级别对齐的双语平行语料,已经成为机器翻译、翻译知识获取以及双语词典编纂研究不可或缺的重要资源。此项技术主要针对中文与英文,基于中文及英文进行双语对齐时,尤其是在处理成千上万双语句子对齐时,现有双语对齐方法存在精度低和速度慢的问题,不能满足快速响应的双语对齐的需求场景。
发明内容
为了解决上述技术问题中的至少一个,提供一种双语对齐的方法及可读存储介质。
根据本公开的一个方面,提供一种双语对齐的方法,包括:
获取原始中文文本和原始英文文本,所述原始中文文本和所述原始英文文本为含义对应的文本;
将所述原始中文文本进行分句,获取所述原始中文文本的句子集合;
将所述原始英文文本进行分句,获取所述原始英文文本的句子集合;
将所述原始中文文本的句子集合通过翻译,获取所述原始中文文本的句子集合的英文译文句子集合;
基于所述英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将所述原始中文文本的句子集合和所述原始英文文本的句子集合分别划分为若干个对应的片段;以及,
将所述对应的片段进行对齐。
根据本公开的至少一个实施方式提供的双语对齐的方法,获取原始中文文本和原始英文文本,所述原始中文文本和所述原始英文文本为含义对应的文本,包括:
通过从文档中抽取原始中文文本和原始英文文本。
根据本公开的至少一个实施方式提供的双语对齐的方法,将所述原始中文文本进行分句,获取所述原始中文文本的句子集合,包括:
通过所述原始中文文本中的标点符号进行分句,获取所述原始中文文本的句子集合。
根据本公开的至少一个实施方式提供的双语对齐的方法,将所述原始英文文本进行分句,获取所述原始英文文本的句子集合,包括:
通过所述原始英文文本中的标点符号进行分句,获取所述原始英文文本的句子集合。
根据本公开的至少一个实施方式提供的双语对齐的方法,将所述原始中文文本的句子集合通过翻译,获取所述原始中文文本的句子集合的英文译文句子集合,包括;
所述原始中文文本的句子集合通过翻译引擎翻译,获取所述原始中文文本的句子集合的英文译文句子集合。
根据本公开的至少一个实施方式提供的双语对齐的方法,基于所述英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将所述原始中文文本的句子集合和所述原始英文文本的句子集合分别划分为若干个对应的片段,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110963607.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多市场主体动态博弈最优决策求解方法
- 下一篇:基于图像的前向主目标检测方法