[发明专利]一种分布式深度学习的梯度压缩方法在审
申请号: | 201811198017.7 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109472347A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 陈孟强;颜子杰;吴维刚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及人工智能领域,更具体的,涉及一种分布式深度学习的梯度压缩方法,利用基于梯度方差的方法,改变传统梯度稀疏化中采用固定阈值或百分比的方法来决定是否发送该梯度。由于使用固定阈值或百分比的方法往往需要实验者拥有一定的先验知识,若初始阈值或百分比选择不恰当,会导致实验无法达到预期效果。本专利采用基于梯度方差的方法,与现有技术相比,大大的减少了人为因素的干预,使梯度稀疏化更加灵活,更加科学。 | ||
搜索关键词: | 梯度压缩 方差 稀疏 人工智能领域 人为因素 先验知识 发送 学习 干预 灵活 | ||
【主权项】:
1.一种分布式深度学习的梯度压缩方法,其特征在于,包括以下步骤:步骤S1:每个Worker节点读取一批训练数据到内存中;步骤S2:Worker节点利用读入的样本数据及对应的期望输出,进行前向传播,最后得到模型的输出值;步骤S3:Worker节点根据前向传播得到的模型输出值计算与样本数的期望输出的误差得到损失值Loss,根据损失值Loss进行反向传播,并且加上残差梯度rt,得到参数梯度向量
步骤S4:当梯度元素
满足
和
时,选择发送该梯度;未发送的梯度则作为残差梯度,保留至下一次迭代;其中
为梯度向量,
为梯度元素,|B|为MiniBatch训练数据大小,α′为预设准确率,z为MiniBatch中的某个样本,fz、fB为损失函数,
为第i个参数在MiniBatchB中的样本梯度方差,τ为每轮迭代中梯度的最大值,σ上一轮迭代中的压缩率;步骤S5:Worker节点将需要发送的梯度封装并发送给参数服务器,参数服务器聚集所有Worker节点发来的压缩梯度,将梯度进行聚合,生成新的梯度向量,并分发给所有Worker节点;步骤S6:节点收到由参数服务器发来的全局参数梯度更新向量,采用Adadelta优化算法进行参数更新,然后继续读入下一批训练数据进行新一轮的迭代;步骤S7:判断训练迭代次数是否满足要求,若满足,结束迭代,如不满足,进行新一轮的迭代。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811198017.7/,转载请声明来源钻瓜专利网。