[发明专利]基于结构冗余检测的卷积神经网络模型剪枝方法在审
申请号: | 201911214732.X | 申请日: | 2019-12-02 |
公开(公告)号: | CN111160519A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 宋利;甘文耀;陈立;解蓉;李琳;冯亚楠 | 申请(专利权)人: | 上海交通大学;咪咕文化科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 冗余 检测 卷积 神经网络 模型 剪枝 方法 | ||
1.一种基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,包括:
S1:按顺序选择卷积神经网络中的子结构;
S2:检测卷积神经网络子结构的冗余性,如果该子结构为冗余结构,则执行S3;如果该子结构不是冗余结构,则返回S1重新开始;
S3:剪枝卷积神经网络的冗余结构,重复执行S1和S2,直至对卷积神经网络中所有冗余子结构完成剪枝,并对得到的剪枝后的卷积神经网络进行训练,得到最终的优化模型。
2.根据权利要求1所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述S1中,子结构的选择依据从大到小、从后到前的顺序原则。
3.根据权利要求1所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述S1中,卷积神经网络为训练后的卷积神经网络,其中,采用批次训练和随机梯度下降的方法,在训练集上对卷积神经网络进行训练,并在训练的同时加入正则和动量。
4.根据权利要求1所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述S2中,卷积神经网络子结构的冗余性的检测方法为:
先将选择的子结构从卷积神经网络中去除,然后将因为去除该子结构而权重矩阵形状发生变化的结构重新初始化,再微调卷积神经网络,得到微调后的网络权重及其精度;如果微调后的网络精度大于阈值T1,且微调后的网络精度与去除子结构前的网络精度的差小于阈值T2,则说明该选择的子结构是冗余结构,否则,则说明该选择的子结构不是冗余结构。
5.根据权利要求4所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述T1设为未剪枝网络精度的95%~98%,所述T2设为未剪枝网络精度的1%~3%。
6.根据权利要求4所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述微调卷积神经网络的方法为:设置重新初始化的结构的学习速率为其余结构的学习速率的1%~2%,微调时间为一个epoch。
7.根据权利要求1所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述S3中,当检测到选择的子结构为冗余结构时,立即剪枝该子结构。
8.根据权利要求1所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,所述S3中,对得到的剪枝后的卷积神经网络进行训练,包括:
重新初始化剪枝后的卷积神经网络,然后采用训练集和验证集训练剪枝后的卷积神经网络,得到最终的优化模型。
9.根据权利要求3或8中任一项所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,采用CIFAR-10数据集,该数据集包括多张训练图片和多张测试图片,从训练图片中随机选取一部分图片作为验证集,训练图片中的其余图片作为训练集,并将所有测试图片均作为测试集;图片的每个通道均经过减去平均值再除以标准差的归一化操作,在数据增强中,将图片补零,随机从其中或其水平翻转中选取长宽均为32的图像块。
10.根据权利要求9所述的基于结构冗余检测的卷积神经网络模型剪枝方法,其特征在于,在训练过程中,每次迭代的批次数量选取为64~256,一共迭代80~160个epoch,选择带0.90~0.99动量的随机梯度下降方法,权重衰减选择为0.0001~0.001,初始学习速率设置为0.01~0.1,然后在总epoch的二分之一和三分之二处将学习速率除以10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;咪咕文化科技有限公司,未经上海交通大学;咪咕文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911214732.X/1.html,转载请声明来源钻瓜专利网。