[发明专利]一种神经网络机器学习模型的训练方法及装置有效

专利信息
申请号: 201711079959.9 申请日: 2017-11-06
公开(公告)号: CN109754060B 公开(公告)日: 2023-08-25
发明(设计)人: 孟晨;王思宇;宋楷;杨军;骆卫华 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06N3/098 分类号: G06N3/098;G06F40/58
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 李丹;栗若木
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 神经网络 机器 学习 模型 训练 方法 装置
【说明书】:

本申请公开了一种神经网络机器学习模型的训练方法及装置,包括:应用于分布式计算框架中,该分布式计算框架包括多个计算节点,预先将训练数据切分成训练数据切片,且切分的切片数量和参与计算的计算节点的数量相同;包括:计算节点获取训练数据切片,对本地模型参数进行训练;计算节点将训练好的本地模型参数传输给参数服务器;计算节点根据参数服务器返回的全局模型参数更新本地的本地模型参数,并继续对本地模型参数进行训练。本申请使得其在多节点的计算加速比几乎可达线性理想值,大大缩短了模型训练的周期。

技术领域

本申请涉及但不限于计算机技术,尤指一种神经网络机器学习模型的训练方法及装置。

背景技术

神经网络机器翻译(NMT,Neural Machine Translation)模型提出后,由于翻译效果获得明显提升,近年来得到了不断发展。目前在某些语种和场景下,译文质量甚至可以达到人工翻译的水平。

但是,由于NMT模型的结构复杂,且深度神经网络模型本身的训练过程一般会涉及大量的计算,因此,NMT系统往往需要较长的训练周期,比如,使用3000万的训练数据在处理器如单块图形处理单元(GPU)卡上训练,需要训练20天以上才能得到一个初步可用的模型。

已有的神经网络并行训练加速方案主要是基于数据并行(data parallel)的同步随机梯度下降(SGD)算法,即:使用多个worker进程均摊一个小批量(mini-batch)训练数据的计算量,把求得的梯度加和求平均的方法。标准的同步SGD算法的每次迭代都分为三个步骤,首先,从参数服务器(PS,Parameter Server)中将模型参数拉(pull)到本地;接着,利用得到的新的模型参数计算本地训练数据的梯度;最后,将计算出的梯度推(push)到参数服务器。参数服务器需要收集所有workers进程返回的梯度,再统一处理更新模型参数。其中,mini-batch是神经网络模型训练中的训练数据一次批处理的规模。

上述基于梯度平均的方案,一方面,对于跨节点并行,由于受限于网卡性能,模型训练的计算加速比很快会达到上限,而且,随着机器数的增多,不但没有带来加速的效果,反而比单卡更慢。最坏的情况甚至一开始就由于计算通信比较小而不能进行多卡扩展。另一方面,如果为了提高计算通信比,成倍增大mini-batch尺寸(size),当其高于最优经验值时,会大大降低模型收敛精度。再则,随着并行规模的增加,单个GPU的计算性能不能被充分利用,从而也造成了浪费。其中,mini-batch size是随机梯度下降法中最重要的超参数之一,mini-batch size直接关系到训练的计算速度和收敛速度。

其中,收敛加速比是指,单卡方案下模型训练至收敛的绝对时间和分布式方案下模型训练至收敛的绝对时间之间的倍数关系。计算加速比是指,单卡方案下完成一个单位训练数据的训练时间和分布式方案下完成同样大小的训练数据的训练时间之间的倍数关系。

发明内容

为了解决上述技术问题,本发明提供一种神经网络机器学习模型的训练方法及装置,能够大大缩短模型训练的周期。

为了达到本发明目的,本发明提供了一种神经网络机器学习模型的训练方法,应用于分布式计算框架中,该分布式计算框架包括多个计算节点,预先将训练数据切分成训练数据切片,且切分的切片数量和参与计算的计算节点的数量相同;包括:

计算节点获取训练数据切片,对本地模型参数进行训练;

计算节点将训练好的本地模型参数传输给参数服务器;

计算节点根据参数服务器返回的全局模型参数更新本地的本地模型参数,并继续对本地模型参数进行训练。

可选地,所述更新本地的本地模型参数之后,所述继续对本地模型参数的训练之前,还包括:

利用牛顿动量方法更新所述本地模型参数中已知的历史梯度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711079959.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top