[发明专利]基于高斯分布估计选取深度网络参数稀疏阈值的方法在审
申请号: | 202010148425.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111488981A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 刘强;陈世达 | 申请(专利权)人: | 天津大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 估计 选取 深度 网络 参数 稀疏 阈值 方法 | ||
1.基于高斯分布估计选取深度网络参数稀疏阈值的方法,其特征在于,包括步骤:
S1.对DNNs分布式训练的超参数设置,包括训练数据集θ、小批量尺寸B和节点数目N;
S2.当前工作节点Node读取小批量为B的训练数据D到内存;
S3.判断是否为首次迭代,若是则初始化DNNs模型参数Wt-1、本地延时梯度以及全局动量累加Vt,然后进入步骤S4,否则直接进入步骤S4;
S4.当前工作节点Node将训练数据D输入网络执行前向推理过程,将正向输出与标签数据对比得到损失误差Loss并对其执行反向传播,逐层计算每个参数梯度其中k和t分别为节点索引和迭代次数;
S5.将上次迭代产生的本地延时梯度与本次新产生的参数梯度进行累加,生成新的
S6.对DNNs模型的卷积层、全连接层和批归一化层的权值和梯度参数先验假设为高斯分布,求取其特征参数μ和σ的最大似然估计,进而由预设稀疏率ρ得到目标阈值υ并获取掩码Maskl,其中l为层索引;
S7.采用游程编码对根据Maskl选出Top-k选出的重要的稀疏梯度编码,然后基于All-reduce分布式训练框架与其他节点Nodes通信传输及交换各节点剪进行聚合平均,得出平均梯度多个节点进行步骤1~7相同的操作;
S8.采用全局动量分布式随机梯度下降算法,使模型更新考虑到全局收敛信息,加速训练的收敛速度;
S9.判断当前节点Node是否还存在未训练数据,若是则执行新一轮迭代,同时迭代计数器iter自增;否则表示训练完成,将输出训练好的模型及参数。
2.根据权利要求1所述基于高斯分布估计选取深度网络参数稀疏阈值的方法,其特征在于,其中,步骤S6的具体步骤如下:
S61.遍历网络每个卷积层、全连接层和批归一化层,将每层的梯度参数平坦化处理降维后得到一维张量;
假设卷积层、全连接层和批归一化层中权值、梯度属于离散型随机变量,那么参数将符合高斯分布,实际参数确实具有高斯分布特性,由最大似然估计可求出特征参数均值μ和标准差σ;
S62.根据高斯函数的面积特性利用μ、σ和ρ得到曲线围成面积为ρ和1-ρ的分界点,
根据Top-k阈值选取方法,假设横坐标轴为参数大小x,则本地延迟的梯度区域为x∈(μ-x1-ρ·σ,μ+x1-ρ·σ),则进行稀疏通信压缩的目标梯度区域为x∈(-∞,x1-ρ·σ]∪[x1-ρ·σ,+∞),则分界点x1-ρ即为所求阈值υ=μ+2.575829σ;
S63.由步骤S62得到的阈值υ获取掩码Maskl←|Wt-1,l|≥υl,Maskl是与每层梯度参数等大同形状的0-1张量;
S64.根据Maskl选出Top-k重要的稀疏梯度以及更新本地累加梯度然后进行步骤S7。
3.根据权利要求2所述基于高斯分布估计选取深度网络参数稀疏阈值的方法,其特征在于,其中,步骤S8采用全局动量分布式随机梯度下降算法处理,包括全局动量累加过程Vt+1=m·Vt+UGt,用新的全局动量进行各参数更新过程Wt+1=Wt-η·Vt+1,其中m和η分别是动量和学习率参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010148425.2/1.html,转载请声明来源钻瓜专利网。