[发明专利]一种神经机器翻译系统的性能提升方法在审
申请号: | 202210090738.6 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114528855A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 杨迪;代孟丽 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经 机器翻译 系统 性能 提升 方法 | ||
1.一种神经机器翻译系统的性能提升方法,其特征包括以下步骤:
1)处理训练数据并初始化神经机器翻译系统的参数,其参数初始化规则遵从Xavier参数初始化规则;
2)将神经机器翻译系统中的绝对位置编码生成规则调整为一种乘积式正余弦编码生成规则;
3)输入训练数据,并将步骤2)中生成的绝对位置编码读入神经机器翻译系统,与输入源语句的词向量相加,得到与位置信息融合的词向量,并送入神经机器翻译模型;
4)使用梯度下降方法训练神经机器翻译系统至收敛,训练过程与现有神经机器翻译系统的训练过程保持一致;
5)在解码过程中,对于神经机器翻译系统中的绝对位置编码生成规则,应与步骤2)中乘积式正余弦编码生成规则保持一致。
2.按权利要求1所述的神经机器翻译系统的性能提升方法,其特征在于:步骤1)中,处理训练数据并初始化神经机器翻译系统的参数,其参数初始化规则遵从Xavier参数初始化规则,具体为:
101)选择需要训练的参数,包括词表中的每个词向量、编码器和解码器中每层的参数以及解码器输出层的参数;
102)使用Xavier参数初始化规则对101)步骤中的参数进行初始化,具体公式如下:
其中w表示需要训练的参数,U表示均匀分布,nin与nout分别代表该需要训练的参数的输入和输出维度。
3.按权利要求1所述的神经机器翻译系统的性能提升方法,其特征在于:步骤2)中,将神经机器翻译系统中的绝对位置编码生成规则调整为一种乘积式正余弦编码,具体为:
其中pos代表位置编码的位置维度索引,2j代表位置编码的隐层维度索引,d代表位置编码的隐层维度大小。
4.按权利要求1所述的神经机器翻译系统的性能提升方法,其特征在于:步骤4)中,训练神经机器翻译系统至收敛,训练过程与现有神经机器翻译系统的训练过程保持一致;
401)将训练数据输入修改位置编码生成规则后的神经机器翻译系统,计算关于训练数据的目标函数L,计算公式如下:
其中(x,y)表示训练的输入和目标,w表示模型的可训练参数,l(·)表示神经机器翻译系统的损失函数;
402)将损失的梯度反向传播,计算神经机器翻译模型中待训练参数的梯度,并更新该参数公式如下:
其中t表示更新的步数,α为学习率,表示更新步幅的大小,需要随着训练进程不断更新调整;
403)利用步骤401)和步骤402)的公式不断更新模型的待训练参数,直到神经机器翻译模型对训练数据的损失收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210090738.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冷轧板材激光在线退火设备及工艺
- 下一篇:折叠脚撑及柜子