[发明专利]一种深度学习模型的训练方法、计算设备以及系统有效
申请号: | 201810104670.6 | 申请日: | 2018-02-02 |
公开(公告)号: | CN110135573B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 王思宇;孟晨;宋楷 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N3/098 | 分类号: | G06N3/098;G06F40/58 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 党晓林;李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 模型 训练 方法 计算 设备 以及 系统 | ||
本申请提供了一种深度学习模型的训练方法、训练系统、计算设备以及计算机可读存储介质,涉及数据处理技术领域。所述训练方法包括:获取深度学习模型的模型参数;基于训练数据,使用模型参数对深度学习模型进行多次训练,将多次训练生成的模型梯度依次进行累加,确定出累加梯度数据,所述多次训练中的每一次均为有向无环图,且所述多次训练构成有向有环图;输出所述累加梯度数据,以根据所述累加梯度数据更新所述模型参数。本申请的技术方案,由于在多次训练的过程中减少了工作服务器与参数服务器之间的通信次数,因此能够加快深度学习模型的训练速度,获得更好的加速和收敛效果。
技术领域
本申请属于数据处理技术领域,尤其涉及一种深度学习模型的训练方法、深度学习模型的训练系统、计算设备以及计算机可读存储介质。
背景技术
深度学习是业界逐渐成为主流的计算和机器学习实现方法,可被用于图像、语音、视频、机器翻译等多种场景。以机器翻译为例,基于神经网络的机器翻译的效果获得明显提升,近年来得到不断发展。目前在某些语种和场景下,译文质量甚至可以达到人工翻译的水平。
但是,由于深度神经网络模型本身的训练过程一般又会涉及很大量的计算,因此往往需要较长的训练周期,例如,使用3000万的训练数据在单个图形处理器(GPU)上一般需要训练20天以上,才能得到一个初步可用的模型。因此,如何缩短模型训练的周期,快速支持各个业务场景是迫切需要解决的技术难题。
对于此,业界有多种业已成熟的深度学习框架,为了提高训练效率,使用了分布式技术来进行模型训练。例如,Google公司发布的Tensorflow,就可以支持多GPU计算、分布式计算。
Tensorflow是Google发布的第二代深度学习框架,在当前发布的版本上可以支持分布式标准的分布式训练,它和MXNet都是基于有向无环图的计算执行框架,并且均包含两种训练方案,即分布式同步训练和普通异步式分布式训练,并且都是基于参数服务器实现的。用户在构造完单机单卡训练模型之后,使用Tensorflow提供的分布式训练接口可以很容易的将单机单卡训练过程自动的扩展成多机多卡分布式训练过程。虽然这两种方式在功能上能够支持任何模型的分布式训练过程,但是却并不能对所有的模型起到训练加速的作用,甚至可能出现分布式训练的计算速度慢于单机单卡训练速度。这主要是因为分布式加速的效果主要取决于模型本身的特点,对于模型参数量较大的模型来说,由于训练时每轮均要涉及参数服务器和工作节点间的通信,而通信带宽相对而言又是个缓慢的过程。因此无论是TensorFlow还是MXNet的同步或异步训练方式都不能很好的为这种模型进行训练加速。
目前,针对分布式学习框架,存在两种主流的分布式训练方案:同步训练以及普通的异步式训练方法。
1、同步训练过程
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810104670.6/2.html,转载请声明来源钻瓜专利网。