[发明专利]基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质在审

专利信息
申请号: 202110271844.X 申请日: 2021-03-13
公开(公告)号: CN112926344A 公开(公告)日: 2021-06-08
发明(设计)人: 杨雅婷;陈玺;董瑞;马博;王磊;周喜 申请(专利权)人: 中国科学院新疆理化技术研究所
主分类号: G06F40/58 分类号: G06F40/58;G06F40/211;G06F40/216;G06F40/284;G06N3/04;G06N3/08
代理公司: 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 代理人: 张莉
地址: 830011 新疆维吾尔*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 向量 替换 数据 增强 机器翻译 模型 训练 方法 装置 电子设备 存储 介质
【说明书】:

发明公开了一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质,具体实现方案为:获取训练样本数据集;对所述的样本数据集进行预处理。针对已有的源语言或目标语言语料,分别训练基于Transformer结构的正向语言模型和逆向语言模型;通过正向语言模型、逆向语言模型来获得句子中任意位置的词在整个词表上的概率分布;根据概率分布以及整个词表的词向量来确定最终词向量,利用最终词向量替换该位置的单词;利用替换后的双语平行语料训练神经机器翻译模型,得到翻译的结果;同时可以将单语数据融入本方法以得到更好的翻译效果。实验结果表明,本发明所述的方法可以显著提高机器翻译模型的翻译质量。

技术领域

本发明涉及人工智能领域,尤其涉及一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质。

背景技术

近年来,随着人工智能的发展,特别是深度学习技术的日益成熟,人工智能在各行各业中得到了广泛应用,极大地提高了生产效率。在自然语言处理领域中的机器翻译领域,基于神经网络的神经机器翻译也取得了较好的效果。机器翻译是一种利用计算机实现语言对之间相互转换的方式。随着深度学习发展,基于深度学习的神经机器翻译(NeuralMachine Translation,NMT)的发展取得了较大的进展,网络结构从循环神经网络发展到卷积神经网络,再到完全基于自注意力机制的网络。在这些不同的网络结构中,基于自注意力机制而又高度并行化的Transformer取得了非常好的效果。神经机器翻译逐步取代了统计机器翻译,成为了目前主流的翻译系统。

目前的神经机器翻译模型在面对英法、英中等拥有大规模平行语料的资源丰富语言对时,取得了较好的翻译效果,但是在一些低资源语言机器翻译任务中效果却不尽人意。作为数据驱动的一种翻译方法,神经机器翻译严重依赖于平行数据的质量、规模。在一些资源稀缺性语言的机器翻译任务中,由于大规模高质量平行语料资源的匮乏以及缺少有效的分析工具,其对应的神经机器翻译系统性能并不理想。因此在低资源的条件下如何构建并提升翻译性能成为维汉机器翻译任务中的主要问题。

为了使限定数据集表现出更多的内容,依据图像数据增强的基本思想,可以通过对平行句对中的某一部分词进行处理来实现数据增强。Zhang X等人通过利用存在的同义词林来查找并替换文本中选定需替换的内容来进行数据增强。Fadaee等人首次提出利用语言模型将文本序列中的高频词用低频词来替换,同时替换对应的译文。这种方式虽然能够有效地提升机器翻译的效果,但其只关注了词表中的部分单词(低频词)。然而高频词之间的替换同样也会提升机器翻译的效果,同时存在很多可以用来进行替换的单词,上述方法不能生成所有可能性的替换。

随着词向量的提出,其通过将词转化为连续稠密的向量来对词与词之间的关系进行描述。相似语义的单词会得到相近的向量表示,因此可以通过词向量来捕捉具有相似语义的词汇。但具有相同语义的词汇在真实数据集中出现的概率并不相同,因此本发明在提供一种基于词向量替换数据增强的机器翻译模型训练方法、装置、设备以及存储介质。

发明内容

本发明目的在于,针对上述现有技术的不足,提供了一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质,该方法获取训练样本数据集;对所述的样本数据集进行预处理;针对已有的源语言或目标语言语料,分别训练基于Transformer结构的正向语言模型和逆向语言模型;通过正向语言模型、逆向语言模型来获得句子中任意位置的词在整个词表上的概率分布;根据概率分布以及整个词表的词向量来确定最终词向量,利用最终词向量替换该位置的单词;利用替换后的双语平行语料训练神经机器翻译模型,得到翻译的结果;同时可以将单语数据融入本方法以得到更好的翻译效果。实验结果表明,本发明所述的方法可以显著提高机器翻译模型的翻译质量。以提高机器翻译模型的翻译效果。

本发明所述的一种基于词向量替换数据增强的机器翻译模型训练方法,所述方法包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110271844.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top