[发明专利]一种基于堆叠算法的神经机器翻译系统训练加速方法有效
申请号: | 201911323604.9 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178093B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/0455;G06N3/0464;G06N3/048;G06N3/084 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 堆叠 算法 神经 机器翻译 系统 训练 加速 方法 | ||
1.一种基于堆叠算法的深层神经机器翻译系统的训练加速方法,其特征在于包括以下步骤:
1)基于自注意力机制的Transformer模型,构造包含一个编码块的编码端和解码端,并引入记忆网络以存储编码器端不同块的输出,构造基于动态线性聚合的前作Transformer模型;
2)对源语和目标语构成的双语平行句对进行分词,得到源语序列和目标语序列,并转换成计算机能识别的稠密向量;
3)将用稠密向量表示的句子输入编码端和解码端,并将编码端的稠密向量写入基于动态线性聚合的前作Transformer模型的记忆网络中;
4)编码端每完成一个编码块的计算后将当前编码块的输出写入记忆网络;
5)在写入记忆网络后访问记忆网络,基于常微分方程的线性多步方法对记忆网络中存储的稠密向量和所有编码块输出的语义向量进行聚合,得到一个融合当前所有编码块输出特征的隐层表示,该隐层表示经过层正则化操作获得一个服从标准正态分布的语义向量作为下一编码块的输入,完成所有编码块网络的计算后,获得编码端的输出结果;
6)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层,直到得到顶层的输出,对解码端的输出结果进行线性变换映射到目标端词表空间,使用softmax归一化操作得到目标语的词汇分布,通过计算词汇分布与真实标签数据间的差异来更新模型参数,训练当前的基于动态块输出融合的前作Transformer模型;
7)对当前的包含n个编码块的模型中编码端参数进行复用,取最顶层的一个编码块,将当前块的参数复制后构造一个新的编码块,将新的解码块堆叠至当前的编码端上,构造一个包含n+1和编码块的编码器的模型;
8)重复上述步骤3)-7)进行堆叠,逐步构造具有更深编码端的神经机器翻译系统训练至目标层数直到收敛,完成模型的训练;
9)利用训练完的模型进行翻译;
所述步骤7)中参数复用具体为:
对当前堆叠n次的Transformer模型进行训练后,得到具有m×n层编码层和6层解码层的Transformer模型,将当前模型中编码器端最顶层的一个编码块的参数复制后构造一个新的包含m层编码层的编码块,同时将当前的块堆叠在已经适当训练的Transformer的编码端之上,即堆叠n+1次,编码端的编码层个数为m×(n+1),将进行动态块输出融合的矩阵进行维度增加一维,采用平均的方式进行初始化,其中m为编码块中所包含的编码层个数;
读取当前已经适当训练的模型的检查点,取出当前检查点中保存的编码端最顶层一个编码块即顶层m层相关的参数取出复制后构造出新的一个编码块的参数,并写入检查点中;然后根据堆叠后的模型结构构造出新的模型后读入检查点中的参数;重新构造权重矩阵W,将矩阵扩充一维,对扩充的一维初始化为1/(n+1)。
2.根据权利要求1所述的基于堆叠算法的深层神经机器翻译系统的训练加速方法,其特征在于,所述步骤4)中编码块的计算具体为:
401)在每个编码块中每个编码层对输入进行层正则化操作得到服从标准正态分布的输出后,再输入至自注意力网络,对不同词间的语义联系进行抽取;
402)将自注意力网络正则化前的输入和输出进行残差连接后,将输出向量传递至前馈神经网络;
403)将输出向量送入下一个前馈神经网络子层,并经过与之前同样的正则化操作和残差连接得到前馈神经网络子层的输出,作为当前编码层的输出。
3.如权利要求1所述的基于堆叠算法的深层神经机器翻译系统的训练加速方法,其特征在于,所述步骤5)中对记忆网络中存储的稠密向量和前面所有堆叠块的语义向量进行聚合,得到一个融合各个编码块特征的隐层表示,具体为:
501)将每个编码块的输出向量存入记忆网络,在下一个编码块输入时对记忆网络中存储的所有向量进行加权和,定义一个大小为N*N的权重矩阵W,矩阵中每一行的数值代表每个编码块在计算下一块输入的贡献度;
权重矩阵初始状态为一个下三角矩阵,矩阵的的每一行根据当前需要加权和的向量个数进行平均,表示如下:
其中N为记忆网络的容量;
502)伴随神经网络的训练,神经网络通过反向传播算法更新网络中的参数动态调整权值矩阵W中每一行不同位置权重的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911323604.9/1.html,转载请声明来源钻瓜专利网。