[发明专利]一种神经网络的针对模型并行的动态负载均衡方法在审

申请号：	202110453555.1	申请日：	2021-04-26
公开（公告）号：	CN114217944A	公开（公告）日：	2022-03-22
发明（设计）人：	漆锋滨;刘鑫;高捷;陈德训;刘沙;彭超;黄则强;王宜鹏	申请（专利权）人：	无锡江南计算技术研究所
主分类号：	G06F9/50	分类号：	G06F9/50;G06N3/04;G06N3/08
代理公司：	苏州创元专利商标事务所有限公司 32103	代理人：	王健
地址：	214038 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络针对模型并行动态负载均衡方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种神经网络的针对模型并行的动态负载均衡方法，根据不同的模型和系统的相应参数给出切分策略，并在训练过程中进一步迭代更新；根据不同的模型和系统的相应参数，给出对模型网络的切分策略，在训练过程中进一步迭代更新。本发明能够根据不同的模型和系统的相应参数自动给出较好的切分策略，无需手动调整模型，保证计算节点的负载均衡，大大提高了优化效率。

技术领域

本发明涉及一种神经网络的针对模型并行的动态负载均衡方法，属于深度学习模型并行技术领域。

背景技术

如今的深度学习模型往往因为体量巨大而必须做并行化，分布式扩展技术可以有效的提高大规模数据的处理能力，目前深度学习分布式并行扩展模式主要包括数据并行、模型并行以及混合并行。

尽管数据并行应用最为广泛，但是对于某些模型参数太大，单个节点无法全部容纳的用例，就需要优先考虑模型并行的方法；模型并行模式的分布式训练将单个模型拆分到不同的节点上去，根据粒度的大小又分为将不同的网络层拆分到对应的节点，以及将同一层的不同参数切分到不同的节点中，并相应地实现不同节点间的中间输出的传递。

对于线性模型，可以将对应于不同数据维度的模型参数划分到不同的节点上，对于高度非线性的神经网络，各个工作节点不能相对独立地完成对自己负责的参数训练的更新，必须依赖与其他工作节点的协作，因此，需要寻找一个合适的切分方法才能以最小的代价实现。

当前主流的模型并行切分方法都是粗粒度的切分，仅仅将模型按照网络层划分分布到节点上，往往不能保证节点上的负载维持平衡。此外，由于模型的框架和系统的架构各不相同，应用模型并行时往往需要算法工程师手工确定，这意味着需要进行反复的优化才能寻找到最低代价的负载均衡切分方法。同时对于不同的模型和系统又要求算法工程师重新掌握，大大降低了优化效率。

发明内容

本发明的目的是提供一种神经网络的针对模型并行的动态负载均衡方法，以解决神经网络模型中模型并行的切分问题。

为达到上述目的，本发明采用的技术方案是：提供一种神经网络的针对模型并行的动态负载均衡方法，根据不同的模型和系统的相应参数给出切分策略，并在训练过程中进一步迭代更新；

根据不同的模型和系统的相应参数，给出对模型网络的切分策略，具体包括以下步骤：

S1、基于模型类型、参数量、网络集群拓扑带宽和节点数信息构建代价模型，用于评估每个算子的输入、输出和运行所需的计算时间，还用于评估相邻算子以及算子内部存在的通信时间；

S2、根据S1中得到的代价模型，为所有节点分配应计算的算子，具体步骤如下：

S21、代价模型对当前系统中的所有可用的计算节点进行状态模拟，然后依次遍历代价模型的整个计算图，针对每个算子获得至少一个用于完成当前算子的可用节点作为计算节点；

S22、对于具有多个可用节点的算子，节点分配算法使用贪婪启发式算法来评估将其放置在每个可用节点上的预计完成时间，选取出预计最快完成当前算子的可用节点作为其映射的计算节点；

S23、对于每个算子，重复S22，继续为其余算子分配计算节点，直至为计算图中的每个算子完成计算节点分配；

在训练过程中进一步迭代更新，具体包括以下步骤：

S3、训练前为每个计算节点分配一个权重参数，用来表示分配到的负载量，权重越大分配到的负载量越多，初始时各个节点的权重参数相等；

S4、每轮训练时，首先根据上一步骤得到的当前节点的权重参数，通过代价模型找出所有计算节点的切分策略并开始训练，每个计算节点在计算完成后统计自身的等待时间；

S5、一轮训练完后，根据S4中得到的各个计算节点的最大等待时间和平均等待时间，判断当前的负载均衡是否最优，如果是，则保持当前的切分策略继续训练，如果不是最优，将根据各个计算节点间的等待时间的比重，调整各自的权重，从而改变每个计算节点应当分配到的负载量，随后通过代价模型重新计算出切分策略并执行下一轮训练；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所，未经无锡江南计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110453555.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种稠密卷积运算核心的低功耗方法
下一篇：一种基于AR与SSVEP的便携式注意力训练系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种神经网络的针对模型并行的动态负载均衡方法在审

专利文献下载