[发明专利]基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质在审
申请号: | 202110271844.X | 申请日: | 2021-03-13 |
公开(公告)号: | CN112926344A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 杨雅婷;陈玺;董瑞;马博;王磊;周喜 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06F40/216;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 替换 数据 增强 机器翻译 模型 训练 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质,具体实现方案为:获取训练样本数据集;对所述的样本数据集进行预处理。针对已有的源语言或目标语言语料,分别训练基于Transformer结构的正向语言模型和逆向语言模型;通过正向语言模型、逆向语言模型来获得句子中任意位置的词在整个词表上的概率分布;根据概率分布以及整个词表的词向量来确定最终词向量,利用最终词向量替换该位置的单词;利用替换后的双语平行语料训练神经机器翻译模型,得到翻译的结果;同时可以将单语数据融入本方法以得到更好的翻译效果。实验结果表明,本发明所述的方法可以显著提高机器翻译模型的翻译质量。
技术领域
本发明涉及人工智能领域,尤其涉及一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质。
背景技术
近年来,随着人工智能的发展,特别是深度学习技术的日益成熟,人工智能在各行各业中得到了广泛应用,极大地提高了生产效率。在自然语言处理领域中的机器翻译领域,基于神经网络的神经机器翻译也取得了较好的效果。机器翻译是一种利用计算机实现语言对之间相互转换的方式。随着深度学习发展,基于深度学习的神经机器翻译(NeuralMachine Translation,NMT)的发展取得了较大的进展,网络结构从循环神经网络发展到卷积神经网络,再到完全基于自注意力机制的网络。在这些不同的网络结构中,基于自注意力机制而又高度并行化的Transformer取得了非常好的效果。神经机器翻译逐步取代了统计机器翻译,成为了目前主流的翻译系统。
目前的神经机器翻译模型在面对英法、英中等拥有大规模平行语料的资源丰富语言对时,取得了较好的翻译效果,但是在一些低资源语言机器翻译任务中效果却不尽人意。作为数据驱动的一种翻译方法,神经机器翻译严重依赖于平行数据的质量、规模。在一些资源稀缺性语言的机器翻译任务中,由于大规模高质量平行语料资源的匮乏以及缺少有效的分析工具,其对应的神经机器翻译系统性能并不理想。因此在低资源的条件下如何构建并提升翻译性能成为维汉机器翻译任务中的主要问题。
为了使限定数据集表现出更多的内容,依据图像数据增强的基本思想,可以通过对平行句对中的某一部分词进行处理来实现数据增强。Zhang X等人通过利用存在的同义词林来查找并替换文本中选定需替换的内容来进行数据增强。Fadaee等人首次提出利用语言模型将文本序列中的高频词用低频词来替换,同时替换对应的译文。这种方式虽然能够有效地提升机器翻译的效果,但其只关注了词表中的部分单词(低频词)。然而高频词之间的替换同样也会提升机器翻译的效果,同时存在很多可以用来进行替换的单词,上述方法不能生成所有可能性的替换。
随着词向量的提出,其通过将词转化为连续稠密的向量来对词与词之间的关系进行描述。相似语义的单词会得到相近的向量表示,因此可以通过词向量来捕捉具有相似语义的词汇。但具有相同语义的词汇在真实数据集中出现的概率并不相同,因此本发明在提供一种基于词向量替换数据增强的机器翻译模型训练方法、装置、设备以及存储介质。
发明内容
本发明目的在于,针对上述现有技术的不足,提供了一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质,该方法获取训练样本数据集;对所述的样本数据集进行预处理;针对已有的源语言或目标语言语料,分别训练基于Transformer结构的正向语言模型和逆向语言模型;通过正向语言模型、逆向语言模型来获得句子中任意位置的词在整个词表上的概率分布;根据概率分布以及整个词表的词向量来确定最终词向量,利用最终词向量替换该位置的单词;利用替换后的双语平行语料训练神经机器翻译模型,得到翻译的结果;同时可以将单语数据融入本方法以得到更好的翻译效果。实验结果表明,本发明所述的方法可以显著提高机器翻译模型的翻译质量。以提高机器翻译模型的翻译效果。
本发明所述的一种基于词向量替换数据增强的机器翻译模型训练方法,所述方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110271844.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置