[发明专利]基于翻译记忆库的机器翻译方法及装置在审
申请号: | 202110203208.3 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112818712A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 毛红保 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 聂俊伟 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 翻译 记忆 机器翻译 方法 装置 | ||
本发明提供一种基于翻译记忆库的机器翻译方法,该方法包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文;将待翻译原文和语料原文进行比较,获取语料原文中与待翻译原文不同的差异部分;将差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和待翻译原文作为机器翻译模型的输入,输出待翻译原文的译文;其中,机器翻译模型由翻译原文样本作为样本,翻译原文样本对应的译文作为标签进行训练获得。本发明实现联合待翻译原文和语料原文的译文进行翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于翻译记忆库的机器翻译方法及装置。
背景技术
翻译记忆库是译员在翻译过程中产生并保留的双语语料,通常都是经过人工校对之后译文质量比较高的数据。由于翻译记忆库中的语料有限,很可能从翻译记忆库中检索出不出与当前待翻译文本完全一样的语料,从而无法直接从翻译记忆库中获得当前待翻译文本的译文。
翻译记忆库可用来辅助当前的翻译任务。现有的方式是从翻译记忆库中检索出与当前待翻译文本相似的语料,将其对应的译文呈现给译员。译员根据当前待翻译文本对相似语料的译文进行手动修改获得当前待翻译文本的译文。
由于相似语料的原文和译文之间句子结构、表述方式等差别较大,译员需要花费大量时间对相似语料的译文进行核对和编辑,工作强度大。
发明内容
本发明提供一种基于翻译记忆库的机器翻译方法及装置,用以解决现有技术中译员对相似语料的译文进行核对和编辑时,费时费力的缺陷,实现基于翻译记忆库自动对待翻译文本进行翻译。
本发明提供一种基于翻译记忆库的机器翻译方法,包括:
从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文,包括:
将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;
将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;
将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文,包括:
将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110203208.3/2.html,转载请声明来源钻瓜专利网。