[发明专利]神经网络训练方法、装置、计算机设备和存储介质有效
申请号: | 201811032787.4 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109146064B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 涂兆鹏;李建;杨宝嵩;张潼 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N3/045 | 分类号: | G06N3/045;G06N3/082;G06F18/213;G06F18/214;G06F18/22;G06N3/063 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练 方法 装置 计算机 设备 存储 介质 | ||
1.一种机器翻译方法,包括:
获取训练样本集,所述训练样本集中的各个训练样本存在对应的标准标签;所述训练样本为待翻译样本对应的词序列,所述标准标签为正确翻译文本;
将所述训练样本集中的训练样本输入机器翻译模型中,所述机器翻译模型包括多个注意力网络,将所述训练样本转换为对应的源端向量序列,所述多个注意力网络分别将所述源端向量序列映射到多个不同的子空间,各个子空间输出对应的请求向量序列、键向量序列和值向量序列,各个子空间是用于对所述源端向量序列进行注意力函数运算的空间,不同的子空间用于关注训练样本不同的局部信息;
基于各个相邻子空间输出的请求向量序列、键向量序列和值向量序列中的至少一种序列计算各个所述子空间之间的空间差异度;
根据所述机器翻译模型的输出和所述各个训练样本对应的标准标签计算输出相似度;所述机器翻译模型的输出为目标网络表示序列,所述目标网络表示序列是基于各个所述子空间输出的请求向量序列、键向量序列和值向量序列得到的,所述目标网络表示序列包括所述训练样本经过模型翻译后的文本中各词对应的特征向量,所述目标网络表示序列用于确定所述训练样本经过模型翻译后的文本;
根据所述空间差异度和所述输出相似度对所述机器翻译模型的模型参数进行调整,直至满足收敛条件,得到目标机器翻译模型;所述模型参数包括子空间进行注意力函数运算时采用的可学习参数;
将待翻译内容输入所述目标机器翻译模型,得到所述待翻译内容对应的翻译文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算当前子空间中的所述请求向量序列和所述键向量序列之间的逻辑相似度;
根据所述逻辑相似度计算得到所述当前子空间对应的注意力矩阵;
根据所述注意力矩阵和所述值向量序列计算得到所述当前子空间对应的输出向量序列。
3.根据权利要求1所述的方法,其特征在于,所述多个注意力网络分别将所述源端向量序列映射到多个不同的子空间,包括:
获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据所述请求参数矩阵、所述键参数矩阵和所述值参数矩阵对所述源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列;
获取各个子空间对应的空间参数矩阵,根据所述空间参数矩阵分别对所述请求基本向量序列、所述键基本向量序列和所述值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将各个所述子空间对应的所述输出向量序列拼接后进行线性变换,得到输出后的网络表示序列;
将所述网络表示序列作为更新后的源端向量序列,返回所述获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据所述请求参数矩阵、键参数矩阵和值参数矩阵对所述源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
5.根据权利要求2所述的方法,其特征在于,所述基于各个相邻子空间输出的请求向量序列、键向量序列和值向量序列中的至少一种序列计算各个所述子空间之间的空间差异度,包括:
根据相邻子空间对应的所述值向量序列计算得到子空间输入差异度;和/或
根据相邻子空间对应的所述注意力矩阵计算得到注意力矩阵差异度;和/或
根据相邻子空间对应的所述输出向量序列计算得到子空间输出差异度;
根据所述子空间输入差异度、所述注意力矩阵差异度、所述子空间输出差异度中的至少一种确定所述空间差异度。
6.根据权利要求5所述的方法,其特征在于,所述根据相邻子空间对应的所述值向量序列计算得到子空间输入差异度,包括:
计算相邻子空间对应的所述值向量序列之间的值向量相似度;
统计各个所述值向量相似度得到所述子空间输入差异度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811032787.4/1.html,转载请声明来源钻瓜专利网。