[发明专利]一种基于堆叠算法的神经机器翻译系统训练加速方法有效
申请号: | 201911323604.9 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178093B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/0455;G06N3/0464;G06N3/048;G06N3/084 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 堆叠 算法 神经 机器翻译 系统 训练 加速 方法 | ||
本发明公开一种基于堆叠算法的深层神经机器翻译系统的训练加速方法,步骤为:构造包含1个编码块的编码端和解码端和前作Transformer模型;将用稠密向量表示的句子输入编码端和解码端,并将编码端的输入写入记忆网络;每完成一个编码块的运算后将输出的向量写入记忆网络,访问记忆网络进行线性聚合后得到当前编码块的输出;训练当前的模型;拷贝顶层的编码块参数构造新的编码块并堆叠在当前的编码端之上,构造一个包含2个编码块的模型;重复此过程构造具有更深编码端的神经机器翻译系统训练至目标层数直到收敛;利用训练完的模型进行翻译。本发明方法可以训练具有48层编码层的网络,并取得1.4倍的加速比的同时提升了模型的性能。
技术领域
本发明涉及一种神经机器翻译技术,具体为基于堆叠算法的神经机器翻译系统训练加速方法。
背景技术
机器翻译(英语:Machine Translation,经常简写为MT)属于计算语言学的范畴,是计算语言学的一个重要分支,具有十分重要的科学研究价值。它是利用计算机将一种语言转换成另一种语言的过程。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越关键的作用。
机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,一直到现在的神经机器翻译。随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。
目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器-解码器框架,其中性能最强大的则是基于自注意力机制的Transformer模型结构,在多个语种的上取得了最佳的翻译性能。
Transformer由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器如图3所示由六层堆叠的编码层组成,解码器同样包括六层解码层。整个模型中抛弃了传统的RNN和CNN,完全由注意力机制组成。更准确的说Transformer由且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛弃了只能顺序计算的限制,提高了系统的并行能力。同时由于并行计算的处理方式,也缓解了顺序计算中的长期依赖难以处理的现象。
Transformer的编码层包括自注意力层和前馈神经网络组成。自注意力对编码端输出的用稠密向量表示的句子进行特征提取后送入前馈神经网络。解码器相对于解码器来说在自注意力层和前馈神经网络层之间增加了一个编码-解码注意力层,来对源语和目标语之间的映射关系进行建模。
同时Transformer在不同子层之间还引入了层正则化和残差连接,将每个子层的输出和输入相加后经过层正则化操作进行放缩后传入下一子层。
科学研究人员发现,增强模型的容量能有效提升模型的性能。目前针对Transformer模型,增强模型容量的方法包括是模型变得更宽,即增加隐层的大小,Transformer-Big就是使用这种方式来提高模型的性能,或者通过不断堆叠编码器层增加模型的深度来增加模型容量。然而在传统的Transformer模型当中,如图3所示,简单的堆叠编码层会增加梯度消失或爆炸的风险。前人也针对这一现象提出了一些解决方案,最有效的就是将层正则化的位置提前,即在将输入送入子层前进行正则化处理,残差连接将正则化前的输入和子层的输出累加,被称为前作Transformer模型。
但是随着模型深度的增加带来了参数量的增长和优化难度的增加。同时对设备的要求也越来越高。训练一个深层网络往往需要大量的时间。所以如何提高训练一个深层神经机器翻译模型效率,压缩训练的时间成为要解决的问题。
发明内容
针对现有深层神经机器翻译系统训练对设备要求高,训练时间长以及收敛速度慢等不足,本发明要解决的技术问题是提供一种基于堆叠算法的神经机器翻译系统训练加速方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911323604.9/2.html,转载请声明来源钻瓜专利网。