[发明专利]基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置在审
申请号: | 202010226101.6 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111444730A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 艾山·吾买尔;西热艾力·海热拉;刘文其;盛嘉宝;早克热·卡德尔;郑炅;徐翠云;斯拉吉艾合麦提·如则麦麦提 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F40/44 | 分类号: | G06F40/44;G06F40/58 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 张丽 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 模型 数据 增强 机器翻译 系统 训练 方法 装置 | ||
本发明公开了基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置,Transformer模型由编码器和解码器两个部分组成,其中,模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。大大改善了神经机器翻译模型在资源匮乏情况下翻译性能不好的问题,提高模型泛化能力。实验结果表明,用17万对维汉平行语料来伪造数据并进行训练翻译模型,最后所取得的翻译质量得到了一定的提升。
技术领域
本发明涉及及其翻译技术领域,具体为基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置。
背景技术
机器翻译是通过机器将一种自然语言转换另一种自然语言的过程。机器翻译的概念提出以来大致经历了四个阶段:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和神经机器翻译。传统的机器翻译方法因需要人工设定的翻译规则、广覆盖面得平行语料,遇到了成本高,开发周期长的困难。神经机器翻译概念提出以后收到了众大研究者们的关注,且神经机器翻译的翻译性能超过了传统的机器翻译方法。
神经机器翻译方法的思想不同与统计机器翻译,统计机器翻译方法的主要思想是通过对大量的平行语料进行统计,构建统计翻译模型,反而神经机器翻译方法是先将文本转换成数字其次对数字进行运算构建神经机器翻译模型。文本转换成数字的方法有离散表示和分布式表示,one-hot表示单词的词向量时将词表大小设为向量长度,向量中除了一个维度的值为1,其余维度值为0,但语义层上不能有效的表示单词意义。2013年Google发布了Word2vec词向量训练工具,Word2vec通过给定的文本数据快速有效地训练词向量模型。该模型能够表示出单词在语义层上的向量,可以方便的计算出两个单词的相似度。Word2vec是自然语言处理领域中的里程牌,它促进了自然语言处理任务中的各个任务。
神经机器翻译系统主要由编码器和解码器两部分构成,编码器对源语言任意长度的句子进行编码,解码器将编码器输出的特定长度向量作为输入并解码目标语言句子。该结构通过端到端的方式建模,用目标函数训练模型的所有参数。图1展示编码器-解码器模型的结构。
由编码器和解码器的不同神经机器翻译系统有循环神经网络(RNN)、长短期记忆(LSTM)、门控递归神经网络(GRU)和Transformer等几种形式。选RNN作为编码器的时候,一般会选用双向RNN结构,其中正向RNN输入序列的从左侧开始编码,反向RNN则输入序列的从右侧开始编码,最终两个编码结果联合起来作为输入序列的最终分布式表示。RNN的主要思想是模型的当前预测不仅与当前时刻的输入有关,而且还与此输入之前的输入有关。当RNN的输入序列过长时,神经元很难接收到远距离的单词信息,从而导致网络中出现梯度消失现象。为了解决以上问题通常采用设置网络最大能接受的最大长度策略,虽然该方法能有效解决梯度消失现象,但不能有效处理长期依赖问题变为RNN的弊端。
现有的机器翻译依赖于大规模高质量的平行语料,需要几百万甚至上千万规模的平行语料进行训练才能取得一定的效果。而对于维吾尔语这种的资源的语言来说,是无法获得这么大规模的平行语料的。而且即使有大规模平行语料,基于统计的机器翻译和基于LSTM的机器翻译对长句子的翻译质量也不高,
发明内容
本发明的目的在于提供基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010226101.6/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置