[发明专利]一种分布式训练方法、梯度通信方法、装置以及计算设备在审
申请号: | 202010217994.8 | 申请日: | 2020-03-25 |
公开(公告)号: | CN113449839A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 陈世达;刘强;韩亮;焦阳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;H04L29/08 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 李秀霞 |
地址: | 开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 训练 方法 梯度 通信 装置 以及 计算 设备 | ||
1.一种梯度通信方法,应用于深度神经网络的分布式训练框架中,所述分布式计算框架包括多个计算节点,并在每个计算节点上执行如下步骤:
从训练数据集中获取训练数据子集,计算所述深度神经网络的网络参数在所述训练数据子集上的梯度,作为本地梯度;
对所述深度神经网络的每一网络层,计算该网络层中各梯度块的梯度度量值,并按照梯度度量值从大到小的顺序选取预定数目个目标梯度块,其中,所述梯度块包括多个存储地址连续的本地梯度;
与其他计算节点进行通信,交换彼此的目标梯度块。
2.如权利要求1所述的方法,其中,所述网络层包括卷积层,所述梯度块为所述卷积层中一滤波器对应的多个本地梯度。
3.如权利要求1或2所述的方法,其中,所述网络层包括全连接层,所述梯度块为所述全连接层中一网络节点与上一网络层的所有网络节点之间的网络参数对应的多个本地梯度。
4.如权利要求1至3中任一项所述的方法,其中,所述网络层包括偏置层,所述梯度块为所述偏置层中一网络节点对应的本地梯度。
5.如权利要求1至4中任一所述的方法,其中,所述梯度度量值为所述梯度块的L1范数或者L2范数。
6.如权利要求1至5中任一所述的方法,其中,所述预定数目为1。
7.如权利要求1至6中任一所述的方法,其中,所述与其他计算节点进行通信,交换彼此的目标梯度块,包括:
对所述深度神经网络的每一网络层,基于该网络层的目标梯度块,对该网络层的梯度张量进行稀疏化处理,形成稀疏梯度张量,其中所述梯度张量为该网络层的所有本地梯度构成的张量;
对所述稀疏梯度张量进行编码后,发送到其他计算节点。
8.如权利要求7所述的方法,所述对该网络层的梯度张量进行稀疏化处理,包括:将所述梯度张量中除目标梯度块之外的本地梯度置零。
9.如权利要求7或8所述的方法,其中,所述编码为游程编码。
10.如权利要求1至9中任一项所述的方法,其中,在所述计算该网络层中各梯度块的梯度度量值的步骤之前,还包括:将本地梯度更新为本地梯度与上一次迭代的延迟梯度之和;
在按照梯度度量值从大到小的顺序选取预定数目个目标梯度块的步骤之后,还包括:将除了目标梯度块之外的本地梯度存储为本次迭代的延迟梯度。
11.如权利要求1至10中任一项所述的方法,其中,所述与其他计算节点进行通信,交换彼此的目标梯度块,包括:
采用All-reduce的方式与其他计算节点进行通信,交换彼此的目标梯度块。
12.一种分布式训练方法,应用于深度神经网络的分布式训练框架中,所述分布式计算框架包括多个计算节点,并在每个计算节点上执行如下步骤:
从训练数据集中获取训练数据子集,计算所述深度神经网络的网络参数在所述训练数据子集上的梯度,作为本地梯度;
对所述深度神经网络的每一网络层,计算该网络层中各梯度块的梯度度量值,并按照梯度度量值从大到小的顺序选取预定数目个目标梯度块,其中,所述梯度块包括多个存储地址连续的本地梯度;
与其他计算节点进行通信,交换彼此的目标梯度块;
计算所有计算节点的目标梯度块的梯度平均值,基于所述梯度平均值对所述深度神经网络的网络参数进行更新。
13.如权利要求12所述的方法,其中,在所述计算该网络层中各梯度块的梯度度量值的步骤之前,还包括:将本地梯度更新为本地梯度与上一次迭代的延迟梯度之和;
在按照梯度度量值从大到小的顺序选取预定数目个目标梯度块的步骤之后,还包括:将除了目标梯度块之外的本地梯度存储为本次迭代的延迟梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010217994.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式训练方法、梯度通信方法、装置以及计算设备
- 下一篇:游戏控制器