[发明专利]用于训练深层神经机器翻译模型的方法及装置有效
申请号: | 201910528250.5 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110263352B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 黄辉;刘学博;周沁 | 申请(专利权)人: | 澳门大学;珠海澳大科技研究院 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/045;G06N3/0499;G06N3/084 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 马瑞 |
地址: | 中国澳门*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 深层 神经 机器翻译 模型 方法 装置 | ||
1.一种用于训练深层神经机器翻译模型的方法,其特征在于,包括:
根据训练样本得到第一联合输入表示,所述训练样本包括源语句和目标语句;
将所述第一联合输入表示输入到M层顺次连接的训练网络,得到最终的输出表示;其中,每层所述训练网络中,包括顺次连接的自-交叉注意力网络和前馈网络;
根据所述最终的输出表示及所述目标语句,利用反向传播算法更新模型训练参数;
所述将所述第一联合输入表示输入到M层顺次连接的训练网络,得到最终的输出表示,具体包括:
将所述第一联合输入表示作为第一层所述训练网络的输入,即所述第一联合输入表示输入到第一个所述自-交叉注意力网络;每一层所述训练网络进行预设处理后得到相应分层的输出表示,并且上一层的所述输出表示作为下一层的联合输入表示;最终,经过M层所述训练网络的所述预设处理后,得到最终的所述输出表示;
其中,对于每一层所述训练网络,所述预设处理具体包括:
接收到相应分层的所述联合输入表示后,所述自-交叉注意力网络根据所述联合输入表示得到询问表示、键表示及值表示;
采用点积式注意力机制对所述询问表示、所述键表示及所述值表示进行计算,得到中间表示;
利用与所述自-交叉注意力网络连接的所述前馈网络对所述中间表示进行处理,得到本层的所述输出表示;
所述第一联合输入表示的表达式为:
其中,H0为所述第一联合输入表示;为所述第一联合输入表示的各个向量;X=(x1,…,xi,…,xI)表示所述源语句的I个子词的词向量的集合;y0是一个全零向量;y1…yJ-1分别表示所述目标语句的J个子词中前J-1个子词的词向量;L1表示所述源语句对应的语言向量;L2表示所述目标语句对应的语言向量;分别表示x1…xI的位置向量;分别表示y0、y1…yJ-1的位置向量;
对于第m层所述训练网络,所述询问表示、所述键表示及所述值表示的表达式为:
其中,Qm、Km、Vm分别为第m层所述训练网络的所述询问表示、所述键表示及所述值表示;及均为第m层所述训练网络的模型训练参数;Hm-1为第m联合输入表示,即第m层所述训练网络对应的联合输入表示;
所述中间表示的表达式为:
其中,Hm′为第m层所述训练网络的所述中间表示;d为所述深层神经机器翻译模型的隐藏表示的维度,B为所述深层神经机器翻译模型的掩码矩阵;softmax为归一化指数函数;
所述输出表示的表达式为:
其中,Hm为第m层所述训练网络的所述输出表示;和均为第m层所述训练网络的模型训练参数;max表示对求最大值,1≤m≤M。
2.根据权利要求1所述的用于训练深层神经机器翻译模型的方法,其特征在于,所述根据训练样本得到第一联合输入表示,具体包括:
将所述源语句和所述目标语句进行预处理,所述预处理包括分词处理;
将所述源语句和所述目标语句中的每个子词分别映射成词向量;
将所述词向量分别与对应的语言向量和位置向量相加,得到所述第一联合输入表示。
3.根据权利要求2所述的用于训练深层神经机器翻译模型的方法,其特征在于,所述根据所述最终的输出表示及所述目标语句,利用反向传播算法更新模型训练参数,具体包括:
根据所述目标语句对应的最终的所述输出表示,利用反向传播算法更新模型训练参数,使得预测值为所述目标语句的词向量的概率最大化。
4.根据权利要求1~3任一所述的用于训练深层神经机器翻译模型的方法,其特征在于,所述方法还包括:
基于所述深层神经机器翻译模型,利用基于集束搜索的解码方法将源语言翻译成目标语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳门大学;珠海澳大科技研究院,未经澳门大学;珠海澳大科技研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910528250.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页的多语言翻译方法、装置及设备
- 下一篇:一种机器翻译方法及装置