[发明专利]一种分布式训练方法、梯度通信方法、装置以及计算设备在审

申请号：	202010217994.8	申请日：	2020-03-25
公开（公告）号：	CN113449839A	公开（公告）日：	2021-09-28
发明（设计）人：	陈世达;刘强;韩亮;焦阳	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;H04L29/08
代理公司：	北京成创同维知识产权代理有限公司 11449	代理人：	李秀霞
地址：	开曼群岛大开曼***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分布式训练方法梯度通信装置以及计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种深度神经网络的分布式训练方法、梯度通信方法、装置以及计算设备。方法包括：从训练数据集中获取训练数据子集，计算所述深度神经网络的网络参数在所述训练数据子集上的梯度，作为本地梯度；对所述深度神经网络的每一网络层，计算该网络层中各梯度块的梯度度量值，并按照梯度度量值从大到小的顺序选取预定数目个目标梯度块，其中，所述梯度块包括多个存储地址连续的本地梯度；与其他计算节点进行通信，交换彼此的目标梯度块。

技术领域

本发明涉及数据处理技术领域，具体涉及一种深度神经网络的分布式训练方法、梯度通信方法、装置以及计算设备。

背景技术

随着深度神经网络(deep neural networks，DNNs)的规模及训练数据集的日趋变大，导致其训练需要巨大的算能、存储空间、通信带宽和功耗。当前主流DNNs训练平台基于分布式多节点系统，利用并行计算特点，大大加速训练进程。然而，频繁的梯度交换通信增加了传输带宽压力，导致平台扩展能力低和通信时间长等问题。因此，通信时间成为分布式训练发展瓶颈。

梯度压缩作为很有潜力的方法，通过降低通信量来加速分布式训练，其主要有梯度量化和梯度稀疏两种策略。梯度量化通过降低梯度数据位宽，实现梯度数据压缩。梯度稀疏则通过相关评判方法选出重要梯度先进行参数更新，其余不重要梯度也称延迟梯度，在本地与上次迭代留下的延迟梯度相累加，且不进行参数更新。

在梯度稀疏方式中，现有的主流策略是top-k稀疏策略，即根据重要性选出神经网络每层前k个梯度作为重要梯度。然而，top-k稀疏策略选出的重要梯度面临内存地址不连续和索引无规律问题，且进行梯度重要性选择时的排序和随机采样对硬件极为不友好，另外不规则的稀疏数据将带来复杂的访问控制逻辑，导致稀疏过程变冗长，给硬件实现带来困难。

因此，如何提供一种内存地址连续、控制逻辑简单、加速稀疏处理的硬件友好的梯度稀疏方法是本领域技术人员亟需解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的深度神经网络的分布式训练方法、梯度通信方法、装置以及计算设备。

根据本发明的一个方面，提供了一种深度神经网络的梯度通信方法，应用于深度神经网络的分布式训练框架中，所述分布式计算框架包括多个计算节点，并在每个计算节点上执行如下步骤：

从训练数据集中获取训练数据子集，计算所述深度神经网络的网络参数在所述训练数据子集上的梯度，作为本地梯度；

对所述深度神经网络的每一网络层，计算该网络层中各梯度块的梯度度量值，并按照梯度度量值从大到小的顺序选取预定数目个目标梯度块，其中，所述梯度块包括多个存储地址连续的本地梯度；

与其他计算节点进行通信，交换彼此的目标梯度块。

可选地，在本发明的梯度通信方法中，所述网络层包括卷积层，所述梯度块为所述卷积层中一滤波器对应的多个本地梯度。

可选地，在本发明的梯度通信方法中，所述网络层包括全连接层，所述梯度块为所述全连接层中一网络节点与上一网络层的所有网络节点之间的网络参数对应的多个本地梯度。

可选地，在本发明的梯度通信方法中，所述网络层包括偏置层，所述梯度块为所述偏置层中一网络节点对应的本地梯度。

可选地，在本发明的梯度通信方法中，所述梯度度量值为所述梯度块的L1范数或者L2范数。

可选地，在本发明的梯度通信方法中，所述预定数目为1。