[发明专利]用于训练深层神经机器翻译模型的方法及装置有效

专利信息
申请号: 201910528250.5 申请日: 2019-06-18
公开(公告)号: CN110263352B 公开(公告)日: 2023-04-07
发明(设计)人: 黄辉;刘学博;周沁 申请(专利权)人: 澳门大学;珠海澳大科技研究院
主分类号: G06F40/58 分类号: G06F40/58;G06N3/045;G06N3/0499;G06N3/084
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 马瑞
地址: 中国澳门*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 训练 深层 神经 机器翻译 模型 方法 装置
【权利要求书】:

1.一种用于训练深层神经机器翻译模型的方法,其特征在于,包括:

根据训练样本得到第一联合输入表示,所述训练样本包括源语句和目标语句;

将所述第一联合输入表示输入到M层顺次连接的训练网络,得到最终的输出表示;其中,每层所述训练网络中,包括顺次连接的自-交叉注意力网络和前馈网络;

根据所述最终的输出表示及所述目标语句,利用反向传播算法更新模型训练参数;

所述将所述第一联合输入表示输入到M层顺次连接的训练网络,得到最终的输出表示,具体包括:

将所述第一联合输入表示作为第一层所述训练网络的输入,即所述第一联合输入表示输入到第一个所述自-交叉注意力网络;每一层所述训练网络进行预设处理后得到相应分层的输出表示,并且上一层的所述输出表示作为下一层的联合输入表示;最终,经过M层所述训练网络的所述预设处理后,得到最终的所述输出表示;

其中,对于每一层所述训练网络,所述预设处理具体包括:

接收到相应分层的所述联合输入表示后,所述自-交叉注意力网络根据所述联合输入表示得到询问表示、键表示及值表示;

采用点积式注意力机制对所述询问表示、所述键表示及所述值表示进行计算,得到中间表示;

利用与所述自-交叉注意力网络连接的所述前馈网络对所述中间表示进行处理,得到本层的所述输出表示;

所述第一联合输入表示的表达式为:

其中,H0为所述第一联合输入表示;为所述第一联合输入表示的各个向量;X=(x1,…,xi,…,xI)表示所述源语句的I个子词的词向量的集合;y0是一个全零向量;y1…yJ-1分别表示所述目标语句的J个子词中前J-1个子词的词向量;L1表示所述源语句对应的语言向量;L2表示所述目标语句对应的语言向量;分别表示x1…xI的位置向量;分别表示y0、y1…yJ-1的位置向量;

对于第m层所述训练网络,所述询问表示、所述键表示及所述值表示的表达式为:

其中,Qm、Km、Vm分别为第m层所述训练网络的所述询问表示、所述键表示及所述值表示;及均为第m层所述训练网络的模型训练参数;Hm-1为第m联合输入表示,即第m层所述训练网络对应的联合输入表示;

所述中间表示的表达式为:

其中,Hm′为第m层所述训练网络的所述中间表示;d为所述深层神经机器翻译模型的隐藏表示的维度,B为所述深层神经机器翻译模型的掩码矩阵;softmax为归一化指数函数;

所述输出表示的表达式为:

其中,Hm为第m层所述训练网络的所述输出表示;和均为第m层所述训练网络的模型训练参数;max表示对求最大值,1≤m≤M。

2.根据权利要求1所述的用于训练深层神经机器翻译模型的方法,其特征在于,所述根据训练样本得到第一联合输入表示,具体包括:

将所述源语句和所述目标语句进行预处理,所述预处理包括分词处理;

将所述源语句和所述目标语句中的每个子词分别映射成词向量;

将所述词向量分别与对应的语言向量和位置向量相加,得到所述第一联合输入表示。

3.根据权利要求2所述的用于训练深层神经机器翻译模型的方法,其特征在于,所述根据所述最终的输出表示及所述目标语句,利用反向传播算法更新模型训练参数,具体包括:

根据所述目标语句对应的最终的所述输出表示,利用反向传播算法更新模型训练参数,使得预测值为所述目标语句的词向量的概率最大化。

4.根据权利要求1~3任一所述的用于训练深层神经机器翻译模型的方法,其特征在于,所述方法还包括:

基于所述深层神经机器翻译模型,利用基于集束搜索的解码方法将源语言翻译成目标语言。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳门大学;珠海澳大科技研究院,未经澳门大学;珠海澳大科技研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910528250.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top