[发明专利]一种分布式深度学习的梯度压缩方法在审
申请号: | 201811198017.7 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109472347A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 陈孟强;颜子杰;吴维刚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 梯度压缩 方差 稀疏 人工智能领域 人为因素 先验知识 发送 学习 干预 灵活 | ||
本发明涉及人工智能领域,更具体的,涉及一种分布式深度学习的梯度压缩方法,利用基于梯度方差的方法,改变传统梯度稀疏化中采用固定阈值或百分比的方法来决定是否发送该梯度。由于使用固定阈值或百分比的方法往往需要实验者拥有一定的先验知识,若初始阈值或百分比选择不恰当,会导致实验无法达到预期效果。本专利采用基于梯度方差的方法,与现有技术相比,大大的减少了人为因素的干预,使梯度稀疏化更加灵活,更加科学。
技术领域
本发明涉及人工智能领域,更具体的,涉及一种分布式深度学习的梯度压缩方法。
背景技术
典型的分布式深度学习通常采用参数服务器或Allreduce的方式进行全局参数的维护和更新。由于深度学习使用的神经网络模型结构复杂,模型参数规模庞大。大规模的分布式深度学习需要参数服务器与训练节点频繁地进行参数交换,但节点间网络带宽的不足逐渐成为了制约分布式训练发展的瓶颈。
通常情况下,模型大部分参数每一轮迭代的梯度变化比较小,几乎接近于0。所以有人提出了梯度压缩方法,即压缩每一轮迭代产生的梯度。从而减少通信量,减轻对于带宽的负担。在梯度压缩中,有两种常用的方法——梯度量化和梯度稀疏化。梯度量化主要是通过减少表示梯度的比特数,通过减小梯度数据量的大小实现梯度压缩,当前最常用的就是1-Bit量化方法。梯度稀疏化则是通过算法决定发送某一小部分梯度参加参数更新,而大部分变化值较小的梯度则暂缓更新,通过减少梯度的数量实现梯度压缩,当前最常用的就是阈值稀疏化方法。
当前对梯度稀疏化方法进行优化的改进算法有很多,其中通过百分比动态筛选梯度的方法应用广泛。它不再采用固定的阈值进行梯度稀疏化,而是通过先在模型参数中采样的方法,以一定的百分比来挑选阈值。百分比的设定可以根据用户对于梯度压缩率的需要自行调节,通常情况下压缩率R%有90%,99%和99.9%。实验中,选取一部分梯度作为采样梯度,将采样梯度进行排序比较,挑选梯度值大小为前(1-R%)的梯度,并以R%大的临界梯度作为阈值。通过采样数据集得到的阈值将作为该轮迭代的全局阈值进行梯度稀疏化。未发送的梯度将作为残差梯度累加至下一次的梯度计算结果中参与下一轮迭代。由于传统的1-Bit量化和固定阈值稀疏化方法中没有考虑残差梯度的问题,导致模型收敛性会出现一定的影响,并且准确率会有小幅度的降低。
由于当前梯度稀疏化的方法还是普遍的根据选定的阈值来对梯度值进行判定是否发送该梯度进行参数更新。但无论是采用固定阈值还是通过百分比动态选择阈值,都绕不开用户的介入,即设定阈值或设定百分比。这些值的设定都依赖于用户的经验知识。以及,传统的分布式深度学习采用参数服务器架构进行梯度的聚合以及参数的更新时,每当参数服务器完成参数更新后,都需要将完整的模型参数下发至Worker端,但实际上由于模型参数只更新了一小部分的参数,绝大部分的参数还是维持原样的,所以会产生大量的冗余通信。在参数更新部分,现在有很多改进的优化算法,例如动量SGD、牛顿动量、AdaGrad、RMSProp、Adadelta和Adam方法。传统的Minibatch SGD在稀疏梯度的情况下,可能对模型收敛带来影响。综上所述,现有的梯度稀疏化方法仍存在较多改进的空间。
发明内容
为了解决现有技术中没有考虑残差梯度的问题导致影响模型的收敛性并且准确率会有小幅度的降低,而且会产生大量的冗余通信的不足,本发明提供了一种分布式深度学习的梯度压缩方法。
为实现以上发明目的,采用的技术方案是:
步骤S1:每个Worker节点读取一批训练数据到内存中;
步骤S2:Worker节点利用读入的样本数据及对应的期望输出,进行前向传播,最后得到模型的输出值,各Worker节点间互不影响,彼此计算独立;
步骤S3:Worker节点根据前向传播得到的模型输出计算与样本数据的期望输出的误差得到损失值Loss,根据损失值Loss进行反向传播,并且加上残差梯度rt,得到参数梯度向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811198017.7/2.html,转载请声明来源钻瓜专利网。