[发明专利]一种加速分布式深度神经网络训练的混合流水线并行方法在审
申请号: | 202110134151.6 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112784968A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 张竞慧;李剑歌;王宇晨;金嘉晖;东方;罗军舟 | 申请(专利权)人: | 东南大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F9/50 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 加速 分布式 深度 神经网络 训练 混合 流水线 并行 方法 | ||
本发明提供一种加速深度神经网络分布式训练的混合流水线并行方法,主要解决传统GPU集群分布式训练过程中资源利用不充分,无法实现高效分布式训练的问题。本发明的核心机制主要包含三个部分,分别是深度学习模型刻画、模型混合划分与混合流水线并行划分。本发明首先针对深度学习应用在GPU训练过程中的资源需求,刻画出其训练过程中计算量、中间结果通信数量、参数同步量等相应指标,并将其作为模型混合划分与任务放置的输入。然后根据模型刻画结果和GPU集群的环境,设计两个基于动态规划的划分算法,实现模型混合划分与混合流水线并行划分,目的是最小化划分之后各阶段任务执行时间的最大值,以确保负载均衡,实现深度神经网络的高效分布式训练。
所属领域
本发明涉及一种混合流水线分布式深度学习中的模型划分与任务放置方法,属于分布式计算技术领域。
背景技术
深度学习是一类模式分析方法的总称,通过深度神经网络,利用多层非线性信息进行有监督或无监督的特征提取和转换。近年来,随着技术的不断进步,深度学习在譬如图像识别、自然语言处理、人机对抗等多个领域取得了广泛的应用。但是随着深度学习的不断发展,网络的深度越来越深,层数越来越多,训练时间也在不断地增加,通常训练一个完整的深度神经网络模型需要几十小时甚至数周或数月,因此如何高效地执行训练过程,减少训练时间,成为近期人们研究的热点。
深度神经网络的训练主要包含三个部分:(1)正向传播。正向传播指神经网络从训练集中读取带有标签的数据,通过隐藏层和激活层运算,最后由输出层输出结果的过程。为了加快训练速度以及减少噪声带来的影响,通常一次迭代会处理一组数据。(2)反向传播。正向传播输出结果后,需要与训练集本身的标签进行比对,用合适的函数计算出训练值与真实值之间的误差。由于各个参数对误差影响的权重大小不同,为了计算权重,从正向传播的反方向,由链式求导法则,依次求出各层参数的梯度,计算梯度时需要用到相应层前向传播的中间结果。(3)梯度下降。根据计算值与真实值之间的误差和反向传播中求解出的各层参数的梯度,对每一层的参数进行梯度下降,更新参数,完成一次迭代。通过这三个步骤的不断迭代,最终神经网络达到收敛的状态。
由于随着模型的不断发展,模型层数越来越多,所需要的计算能力和显存占用越来越大,分布式机器学习成为了人们关注的重点问题。传统分布式机器学习主要分为两种方式:(1)数据并行。数据并行是指在多块GPU上,每块GPU都含有一个模型的完整副本,使用部分数据,各自相对独立地进行训练。一次迭代完成后,会由参数服务器收集所有GPU上的参数然后执行参数同步更新。随着GPU计算能力的不断提升,计算时间不断被缩短,这时参数同步所需的通信时间就成为了数据并行中的瓶颈,大大降低了分布式训练的性能。(2)模型并行。模型并行将模型从中间切分,划分到不同的GPU上,每块GPU只拥有完整模型的一部分。正向传播时,先计算模型的第一部分stage1,然后将中间结果发送到第二部分stage2,继续计算。反向传播和梯度下降同理。但是由于stage正向传播后需要等待后面的stage反向传播的结果,等待时间中该GPU一直处于空闲状态,大大降低了分布式计算的性能。同时,如何合理地切分模型,使得各个stage达到负载均衡,也是用户需要考虑的难点。
针对这两种并行方式各自的特点,近期研究者们提出了两种方式来改进分布式机器学习。一种是混合并行,传统的数据并行是从数据的batch维度进行切分的,混合并行从张量的角度进行切分,扩展了并行方式,从而减少通信瓶颈,提高了GPU的利用率。另一种是流水线并行,是一种对模型并行的改进。在模型并行的正向传播过程中,一个GPU在进行完一组数据的计算后,不再一直等待反向传播,而是继续计算下一组数据的正向传播过程。通过合理地分配正向和反向传播的执行顺序,达到理论上的负载均衡,大大减少了GPU的空闲时间,提高了并行效率。但是,在现有的工作中,并没有综合考虑这两种并行方式,导致策略的划分不够完备,GPU的利用率不够高。因此,如何结合混合并行和流水线并行,设计有效的算法实现模型划分从而提升训练速度,成为关键问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110134151.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种合成更昔洛韦类似物的方法
- 下一篇:一种氨基甲脒盐酸盐含量分析方法