[发明专利]一种深度学习模型的训练方法、计算设备以及系统有效
申请号: | 201810104670.6 | 申请日: | 2018-02-02 |
公开(公告)号: | CN110135573B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 王思宇;孟晨;宋楷 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N3/098 | 分类号: | G06N3/098;G06F40/58 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 党晓林;李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 模型 训练 方法 计算 设备 以及 系统 | ||
1.一种深度学习模型的训练方法,其特征在于,包括:
获取深度学习模型的模型参数;
基于训练数据,使用模型参数对深度学习模型进行多次训练,将多次训练生成的模型梯度依次进行累加,确定出累加梯度数据,所述多次训练中的每一次均为有向无环图,且所述多次训练构成有向有环图;
输出所述累加梯度数据,以根据所述累加梯度数据更新所述模型参数。
2.根据权利要求1所述的方法,其特征在于,所述有向无环图为从图中的一点出发,按照图中的箭头所指的方向走,无法回到该点的图,所述有向有环图为从图中的一点出发,按照图中的箭头所指的方向走,还能回到该点的图。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将获取到的所述深度学习模型的模型参数进行存储。
4.根据权利要求1所述的方法,其特征在于,基于训练数据,使用模型参数对深度学习模型进行多次训练包括:
基于训练数据,使用模型参数对深度学习模型进行第k次训练,所述k为1、2、3、……m,包括:
从训练数据中获取出一批量的训练数据,作为第k次的训练数据;
将第k-1次的模型梯度应用于第k-1次的模型参数,得到第k次的模型参数;
根据所述第k次的训练数据以及所述第k次的模型参数求解第k次的模型梯度,其中所述m为训练次数,是正整数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
参数服务器接收所输出的累加梯度数据,根据所述累加梯度数据更新所述参数服务器上存储的所述深度学习模型的模型参数,得到更新后的模型参数。
6.根据权利要求5所述的方法,其特征在于,根据所述累加梯度数据更新所述参数服务器上存储的所述深度学习模型的模型参数,得到更新后的模型参数包括:
判断所述累加梯度数据是否超过预设阈值;
当判断为否时,将所述累加梯度数据应用于所述参数服务器上存储的所述深度学习模型的模型参数,得到更新后的模型参数;
否则,对所述累加梯度数据进行梯度裁剪操作,将梯度裁剪操作后的累加梯度数据应用于所述参数服务器上存储的所述深度学习模型的模型参数,得到更新后的模型参数。
7.根据权利要求5所述的方法,其特征在于,所述参数服务器接收所述累加梯度数据后,所述方法还包括:
所述参数服务器对存储的所述深度学习模型的模型参数进行加锁操作,当得到更新后的模型参数后,对所述模型参数进行解锁操作。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述参数服务器上存储的更新后的模型参数,并清除所述累加梯度数据。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当所述深度学习模型的训练次数未达到预设的总训练次数时,返回执行获取所述参数服务器上存储的更新后的模型参数,否则,输出结束信息,所述结束信息用于显示所述深度学习模型训练结束。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
所述参数服务器接收至少一个结束信息,将此时的模型参数输出。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
根据参数服务器输出的模型参数以及预设的计算流图更新得到神经网络机器翻译模型;
基于所述神经网络机器翻译模型翻译待翻译信息,得到翻译结果;
输出所述翻译结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810104670.6/1.html,转载请声明来源钻瓜专利网。