[发明专利]一种由未来语境引导的神经机器翻译模型优化方法在审
申请号: | 202210774343.8 | 申请日: | 2022-07-01 |
公开(公告)号: | CN115081464A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 黄艳;张添元;朱会东;陈明;范乃梅 | 申请(专利权)人: | 郑州轻工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 郑州晟佳专利代理事务所(普通合伙) 41205 | 代理人: | 符亚飞 |
地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 未来 语境 引导 神经 机器翻译 模型 优化 方法 | ||
1.一种由未来语境引导的神经机器翻译模型优化方法,其特征在于,包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理,将预处理后的平行语料数据集输入到Transformer模型中进行训练;
步骤2:获取Transformer模型的编码器最后输出的隐藏状态henc,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc,另一份输入至Transformer模型的解码器中;
步骤3:在Transformer的解码器之后构建未来语境引导模块,得到所述未来语境引导模块输出的隐藏状态hfuture;所述未来语境引导模块依次由MHA、残差连接、层归一化组成,MHA的输入为Q、K、V,其中Q为解码器输出的隐藏状态hdec,K和V均为编码器最后输出的隐藏状态henc;将MHA的输入Q记为将MHA的输入K记为将MHA的输入Q记为
步骤4:结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture;
步骤5:所述未来语境引导模块输出的隐藏状态hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn;
步骤6:对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。
2.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤2中,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc包括:
所述隐藏状态henc经过全连接层linear和softmax之后进行预测得到:
其中,为预测得到的结果;
通过损失函数计算Lenc:
其中,y是目标语句,l为模型使用的损失函数,模型统一采用交叉熵损失函数。
3.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤3中,得到所述未来语境引导模块输出的隐藏状态hfuture的过程包括:
计算MHA的输出HK;
将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture。
4.根据权利要求3所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤3中,计算MHA的输出HK的公式如下:
其中,k是transformer相应模块的数量,αij是MHA的权重系数,表示生成第i个单词时,源语句中第j个单词的贡献值;n为源语句的长度;WQ、Wk和WV分别是MHA中Q、K和V对应的矩阵参数,d是词向量的维度,是MHA在生成第i个单词时得到的结果。
5.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤4中,通过一层门控单元结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学,未经郑州轻工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210774343.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的骨科整复锁钉器
- 下一篇:一种具有检测功能的粉料下料装置