[发明专利]基于高斯分布估计选取深度网络参数稀疏阈值的方法在审
申请号: | 202010148425.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111488981A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 刘强;陈世达 | 申请(专利权)人: | 天津大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 估计 选取 深度 网络 参数 稀疏 阈值 方法 | ||
本发明公开一种基于高斯分布估计选取深度网络参数稀疏阈值的方法,在选取稀疏阈值时,是通过对DNNs模型的卷积层、全连接层和批归一化层等的权值和梯度参数先验假设为高斯分布,求取其特征参数μ和σ的最大似然估计,进而由预设稀疏率ρ得到目标阈值并获取掩码,然后采用游程编码对根据选出Top‑k选出的重要的稀疏梯度编码,然后基于All‑reduce分布式训练框架与其他节点Nodes通信传输及交换稀疏梯度;各节点剪进行聚合平均,得出平均梯度,对多个节点操作。相比于复杂度为O(nlog2n)的传统排序技术在对百万级以上参数选取top‑k的加速效果明显。
技术领域
本发明涉及深度学习和分布式训练技术领域,特别是涉及基于高斯分布估计选取深度网络参数稀疏阈值的方法。
背景技术
深度神经网络(deep neural networks,DNNs)近年在计算机视觉和自然语言处理等任务上不断刷新已有最佳性能,成为最受关注的研究方向之一。DNNs虽然具有显著性能,但由于参数量巨大、存储成本和计算成本过高,仍面临着有效部署到硬件受限的嵌入式或移动边缘设备等问题。相关研究表明,DNNs模型本身存在大量对性能影响甚微的冗余参数,不论是训练还是推理过程,通过稀疏压缩相关不重要的参数可实现模型压缩,加快模型计算速度且不影响性能,这为模型压缩提供了理论依据。对DNNs的稀疏压缩包括两方面:用于训练加速的梯度参数稀疏通信和用于推理加速的参数剪枝压缩过程。前者为解决DNNs分布式训练中各节点大量梯度交换的通信瓶颈,从而对梯度参数稀疏;后者为解决大规模DNNs部署在移动边缘设备上面临的计算及存储资源受限的问题,从而对权值参数稀疏,两者都是在训练过程中完成。梯度稀疏通信通过选出重要梯度先进行参数更新,剩余不重要梯度进行本地累加到下次迭代。权值参数剪枝稀疏同样是选出对性能影响较大的参数保留,影响较小的其余参数置零。
目前两者主流选取方法是Top-k阈值选择方法,即每次训练迭代通过预设百分比动态筛选出重要的梯度或权值参数,将每层网络中梯度或权值升序排序,基于预设百分比选出对应阈值,进而判定重要参数。然而,大规模网络每层参数量可达到百万甚至千万级别,此类方法在对大量数据排序时,将需要大量排序时间。对于梯度稀疏有文献提出先随机采样0.1%梯度排序,用样本阈值代替整体阈值,这种方法随机性较大,稀疏率不能得达到保证。另外,有文献提出层级选择方法,即随机采样0.1%~1%梯度的阈值选出重要梯度,若达不到预定压缩比,则采用选出的梯度执行更精确的阈值选择,从而保证压缩率。
综上可知,当前阈值选取技术都需要排序或者随机采样,而这些过程在对大数处理时耗时巨大,计算复杂度高,导致整体训练时间冗长,且硬件实现极为困难,加速效益甚微,且排序过程将导致复杂的访问控制逻辑,导致稀疏压缩计算过程变冗长,最终导致压缩的整体效果达不到预期。
因此,如何快速、简单有效且对硬件实现友好地选取DNNs参数稀疏阈值是本领域技术人员亟需解决的问题。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于高斯分布估计选取深度网络参数稀疏阈值的方法。
为实现本发明的目的所采用的技术方案是:
一种基于高斯分布估计选取深度网络参数稀疏阈值的方法,包括步骤:
S1.对DNNs分布式训练的超参数设置,包括训练数据集θ、小批量尺寸B和节点数目N;
S2.当前工作节点Node读取小批量为B的训练数据D到内存;
S3.判断是否为首次迭代,若是则初始化DNNs模型参数Wt-1、本地延时梯度以及全局动量累加Vt,然后进入步骤S4,否则直接进入步骤S4;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010148425.2/2.html,转载请声明来源钻瓜专利网。