[发明专利]一种加速分布式深度神经网络训练的混合流水线并行方法在审
申请号: | 202110134151.6 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112784968A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 张竞慧;李剑歌;王宇晨;金嘉晖;东方;罗军舟 | 申请(专利权)人: | 东南大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F9/50 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 加速 分布式 深度 神经网络 训练 混合 流水线 并行 方法 | ||
1.一种加速深度神经网络分布式训练的混合流水线并行方法,其特征在于:该方法包括以下步骤:
步骤一:建立深度神经网络的层次累积分布函数(CDF)模型,分析深度学习应用执行模型划分与任务放置算法所需相应输入条件,使用pytorch框架,得到每一层的参数量;然后根据给定的batch-size大小,计算出每一层的中间结果通信量;最后根据每层网络的类型,计算出每一层的浮点计算量,为步骤二做准备工作;
步骤二:根据步骤一的结果,采用动态规划的算法,求解出深度神经网络任意两层间采用不同混合并行方式时的并行时间,为步骤三做准备工作;
步骤三:基于步骤二中求解出的混合并行模式下的结果,采用动态规划的算法,划分不同的阶段,每个阶段内包含神经网络部分连续的层,并给出阶段内采用的混合并行方式,目的是最小化划分之后各阶段任务执行时间之间的最大值,使得混合并行模式下,GPU负载尽可能地均衡,提升GPU利用率以加速分布式训练。
2.根据权利要求1所述的一种加速分布式深度神经网络训练的混合流水线并行方法,其特征在于:所述步骤一具体如下:
为神经网络层次模型建立累积分布函数模型,在给定超参数的前提下,根据设备拓扑D刻画神经网络层级结构相应指标:
a.刻画神经网络各层前向反向计算总时间Tcp;
b.刻画神经网络各层输入量Sizeini;
c.刻画神经网络各层输出量Sizeouti;
d.刻画神经网络各层参数量wi。
3.根据权利要求1所述的一种加速深度神经网络分布式训练的混合流水线并行方法,其特征在于:所述步骤二具体如下:
混合并行划分算法,混合并行划分的目标是求解出任意两层间最优的混合并行方式,在给定带宽B的前提下,根据综合根据动态规划的思想,该问题转换为求任意一层到最后一层间混合并行的并行时间,保留中间结果即可通过回溯找到任意两层间的最优混合并行策略,根据Sizeini,Sizeouti,wi计算出每一层不同划分所需要通信量,根据带宽B计算出通信时间,选择当前层最优策略,A(i,j,m)代表i→j层,使用m块卡混合并行的最优策略,T(k,m,TYPE)代表k层,使用m块卡,并行方式为TYPE时混合并行的时间;
4.根据权利要求1所述的一种加速分布式深度神经网络训练的混合流水线并行方法,其特征在于:所述步骤三中,以步骤二中的混合并行划分结果为基础,用动态规划的算法,将模型划分为多个阶段,每个阶段为神经网络中的部分连续层,阶段内采用最优的混合并行的方式,阶段间采用流水线模型并行,根据Sizeini,Sizeouti,wi,B计算出每种划分的通信时间,划分目标是最小化划分之后各个阶段计算和通信时间的最大值,提高GPU利用率,加快训练速度,令Cps为阶段s采用最优混合并行的计算时间,Cms为阶段s采用最优混合并行的通信时间,在流水线模式下,总时间可以转化为所有阶段中计算和通信时间之和的最大的阶段所用的时间;
通过动态规划的方法,求解出所有阶段中计算和通信时间之和的最大的阶段所用的时间,使得各个阶段的时间大致相当,在混合并行模式下,GPU负载尽可能地均衡。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110134151.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种合成更昔洛韦类似物的方法
- 下一篇:一种氨基甲脒盐酸盐含量分析方法