[发明专利]一种基于特征金字塔的神经机器翻译方法在审
申请号: | 202210073567.6 | 申请日: | 2022-01-21 |
公开(公告)号: | CN114528854A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 毕东;付舒 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 金字塔 神经 机器翻译 方法 | ||
1.一种基于特征金字塔的神经机器翻译方法,其特征在于包括以下步骤:
1)将预处理后的源语言输入送入翻译模型的编码器端,通过词嵌入层和堆叠的编码器层编码成不同维度的上下文向量;
2)编码器的隐层维度在前馈过程中成金字塔型缩放,根据维度大小将编码器层分为不同子块,不同子块的输出向量保存在源语编码向量序列中;
3)将编码器的源语编码向量序列送入翻译模型的解码器端的编解码注意力模块,在编解码器注意力权重的计算过程中,对不同维度的编码键向量和解码查询向量进行不同尺度的多头分割,使得编码子键向量和解码子查询向量保持维度一致;
4)将不同维度的编解码注意力计算结果加权平均,得到最终的编解码器注意力输出向量,解码器通过堆叠的解码器层将源语上下文向量解码成目标语译文,并通过交叉熵损失函数进行梯度更新,优化翻译模型的权重。
2.按权利要求1所述的基于特征金字塔的神经机器翻译方法,其特征在于:步骤1)中,对训练数据进行预处理,将源语输入送入翻译模型的编码器端,将源语信息编码成不同维度的上下文向量;编码器由堆叠的编码器层构成,每个编码器层包括一个自注意力子层和一个全连接子层,其中,自注意力子层的计算方式如下:
其中Self_Att表示自注意力子层,为输入的隐层向量,Wq,Wk,Wv为自注意力子层的参数,softmax(·)为注意力权重计算函数,Ls为源语句长,d为对应的隐层向量维度,a为自注意力权重,
3.按权利要求1所述的基于特征金字塔的神经机器翻译方法,其特征在于:步骤2)中,编码器的隐层维度在前馈过程中成金字塔型缩放,缩放过程发生在每个全连接子层:
ho=W2ReLU(hiW1+b1)+b2
其中hi是全连接子层的输入向量,即前面自注意力子层的输出向量,Ho是全连接层的输出向量,W1∈Rd×4d,W2∈R4d×d/2,b1∈R4d,b2∈Rd/2为全连接子层的参数,ReLU为激活函数,最终全连接子层将输入从对应的隐层向量维度d缩放到d/2;
根据维度大小将编码器分为不同子块,不同子块的输出向量保存在源语编码向量序列中,作为源语不同维度的编码信息集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210073567.6/1.html,转载请声明来源钻瓜专利网。