[发明专利]一种数据传输方法、装置、电子设备和介质在审
申请号: | 202111447979.3 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114328360A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 赵谦谦;阚宏伟;王彦伟 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F15/163 | 分类号: | G06F15/163 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓芬 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据传输 方法 装置 电子设备 介质 | ||
本申请实施例公开了一种数据传输方法、装置、电子设备和计算机可读存储介质,将待处理数据的梯度矩阵划分为多个固定长度的数据集;按照设定的筛选粒度,从每个数据集中筛选出预设个数的梯度数值。将筛选出的梯度数值组合为目标数据集;基于梯度数值在梯度矩阵中的位置,确定出每个目标数据集对应的梯度掩码。将目标数据集及其对应的梯度掩码传输至对端设备,对端设备可以根据梯度掩码将目标数据集还原至对应的位置,从而可以重构出梯度矩阵。通过设置筛选粒度实现对梯度矩阵的压缩,以及基于梯度掩码实现对目标数据集的还原,既降低压缩后的梯度矩阵的稀疏度,又能够保证压缩后的梯度矩阵是原始梯度矩阵的有效近似。
技术领域
本申请涉及设备通信技术领域,特别是涉及一种数据传输方法、装置、电子设备和计算机可读存储介质。
背景技术
分布式深度学习的模型训练通常依赖图形处理器(Graphics Processing Unit,GPU)集群加速,具体的并行算法又可分为数据并行和模型并行两种,其中最常用的是数据并行。在数据并行中,每个GPU上都有完整的模型,训练数据分发到不同的GPU上,每个GPU均独立执行前向处理计算损失函数,再执行反向传播计算梯度矩阵,最后多个GPU执行AllReduce集合通信同步梯度,使用平均梯度更新权重矩阵,重复上述过程直到模型训练完成。
多个GPU执行AllReduce集合通信最常用的实现方式是Ring-AllReduce算法。该算法采用环形拓扑连接多个GPU,将数据切分为小块并在环内循环传递。每个GPU均从环形拓扑的上一个GPU接收一块数据,同时也向环形拓扑的下一个GPU发送大小相同的一块数据,这种方式可以平衡利用每条链路的发送和接收带宽。假设GPU数量是N,数据大小是K,链路带宽是B,可以得出整体通信时间是2*(N-1)*K/(N*B)。当GPU数量N足够大时,整体通信时间只依赖于数据大小K和链路带宽B。链路带宽B取决于现有外部总线和网络互联技术,短期内无法快速提升,数据大小K却可以通过算法优化来有效降低。
深度学习模型的梯度矩阵非常庞大,其中很多梯度的绝对值都比较小,对更新权重矩阵作用不大。因此,研究人员提出了多种方法来压缩梯度矩阵,使得通信时可以去掉这些不重要的梯度数值。在梯度矩阵压缩方面,现有两种常用的技术方案包括细粒度稀疏通信和粗粒度稀疏通信。细粒度稀疏通信首先选择一个阈值,然后遍历梯度矩阵,仅保留梯度数值绝对值超过阈值的梯度,保存为(数值,索引)的键值对形式,通信时仅传输这些键值对的集合。粗粒度稀疏通信首先将梯度矩阵分成若干个固定大小的块,一般将全部梯度矩阵分为数百或上千个块,然后计算每个块的L1范数,选择一定比例的L1范数较大的块进行通信。
但是细粒度稀疏通信的稀疏矩阵计算不适合GPU体系结构,导致压缩相关的计算开销非常高。并且每个GPU选出的梯度的数量和位置都不同,导致负载不平衡,网络带宽利用率较低。粗粒度稀疏通信虽然能够解决细粒度稀疏通信不适合GPU体系结构的问题,但是这项技术对梯度矩阵分块的粒度较大,选择分块的方式也不够细致,导致压缩后的梯度矩阵对原始梯度矩阵的近似程度不足,通信过程容易损失精度。
可见,如何既降低压缩后的梯度矩阵的稀疏度,又能够保证压缩后的梯度矩阵是原始梯度矩阵的有效近似,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种数据传输方法、装置、电子设备和计算机可读存储介质,可以既降低压缩后的梯度矩阵的稀疏度,又能够保证压缩后的梯度矩阵是原始梯度矩阵的有效近似。
为解决上述技术问题,本申请实施例提供一种数据传输方法,包括:
将待处理数据的梯度矩阵划分为多个固定长度的数据集;
按照设定的筛选粒度,从每个所述数据集中筛选出预设个数的梯度数值;将筛选出的所述梯度数值组合为目标数据集;
基于所述梯度数值在所述梯度矩阵中的位置,确定出每个所述目标数据集对应的梯度掩码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111447979.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高透射率超表面单元及透射相位控制方法
- 下一篇:一种风量调节装置及服务器