[发明专利]基于术语保护的机器翻译方法及装置在审
申请号: | 202210094875.7 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114462427A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 朱宪超;韩冰 | 申请(专利权)人: | 四川语言桥信息技术有限公司 |
主分类号: | G06F40/49 | 分类号: | G06F40/49;G06F40/58;G06F40/242;G06F40/117;G06F40/284;G06F40/216 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 高科 |
地址: | 610000 四川省成都市中国(四川)自由贸易试验区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 术语 保护 机器翻译 方法 装置 | ||
本发明提供一种基于术语保护的机器翻译方法及装置,通过搜集海量平行语料,对其进行分词,得到第一集合,并将其输入训练后的IBM Model模型中,输出词对齐概率;根据词对齐概率,对原文中的词进行特殊符号的替换,对译文中的词进行特殊符号的替换和相对位置的标记,并根据替换后的平行语料对机器翻译模型进行训练;基于训练好的机器翻译模型和自定义词典对待翻译原文进行处理,得到翻译结果。本发明通过引入相对位置标记,来对译文中的罕见字词进行标记,使翻译模型可以学习到在生成特殊标记的同时生成相对位置信息,以此可以知道使用哪个原文词对应的译文进行替换,以达到对罕见字词进行正确翻译的目的。
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种基于术语保护的机器翻译方法、装置、计算机设备和存储介质。
背景技术
深度学习时代,机器翻译主要依靠从大量的平行语料学习语言对之间的翻译规律,但是传统的基于深度学习的机器翻译方法很难正确的翻译非常罕见的单词或者字符。对于这些词语或者字符,机器翻译系统往往用一个特殊的符号(如unk,意为unknownword)来表示它们。如图1所示,“en:”为待翻译的英文原文,“fr:”为该英文原文的参考译文,“nn:”为没有对罕见词进行特殊处理的机器翻译模型生成的译文,符号“unk”表示这是一个罕见词,图中的连线展示了原文中的词与译文中的词之间的对应关系。由于翻译模型在训练的过程中没有见过这些词,没有学习到该如何进行翻译,也就只能使用一刀切的方式使用“unk”替代无法翻译的词语。
而上述这种表示方法存在无法定位生成的“unk”字符对应原文中哪一个具体字词,造成信息丢失的问题;并且如果待翻译的原文中存在大量罕见字词,那么则模型的翻译效果将会变得非常差。
因此,亟需一种能够对罕见字词进行正确翻译的方法及装置。
发明内容
本发明实施例提供一种基于术语保护的机器翻译方法、装置、计算机设备和存储介质,用以解决现有的翻译模型无法定位生成的“unk”字符对应原文的哪一个具体词语,造成了信息丢失的问题;以及如果待翻译的句子中存在大量的罕见字词,则模型的翻译效果会变得非常差的问题。
为了实现上述目的,本发明实施例的第一方面,提供一种基于术语保护的机器翻译方法,包括:
搜集海量平行语料,包含原文和其对应的参考译文;
对原文和其对应的参考译文进行分词,得到第一集合;
将所述第一集合输入训练后的I BM Mode l模型中,输出词对齐概率;
根据所述词对齐概率,对原文中的词进行特殊符号的替换,对译文中的词进行特殊符号的替换和相对位置的标记,并根据替换后的平行语料对机器翻译模型进行训练;
基于训练好的机器翻译模型和自定义词典对待翻译原文进行处理,得到翻译结果。
可选地,在第一方面的一种可能实现方式中,所述根据所述词对齐概率,对原文中的词进行特殊符号的替换,对译文中的词进行特殊符号的替换和相对位置的标记,并根据替换后的平行语料对机器翻译模型进行训练,包括:
从一条平行语料中选择词对齐概率高于预设阈值的一组或者几组词;
针对所选择的词组,对原文中的词进行占位符的替换,对译文中的词进行占位符的替换以及相对位置进行标记;
将所有平行语料通过上述步骤进行处理后,输入Transformer模型进行训练。
可选地,在第一方面的一种可能实现方式中,所述基于训练好的机器翻译模型和自定义词典对待翻译原文进行处理,得到翻译结果,包括:
将待翻译原文输入机器翻译模型中,输出的译文中包含占位符,以及与占位符对应的词在原文中的相对位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川语言桥信息技术有限公司,未经四川语言桥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210094875.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水蜈蚣草在预防和治疗病毒感染中的应用
- 下一篇:一种产品组装定位装置