[发明专利]深度卷积神经网络压缩方法、装置、存储介质及设备在审
申请号: | 201911138226.7 | 申请日: | 2019-11-20 |
公开(公告)号: | CN112825143A | 公开(公告)日: | 2021-05-21 |
发明(设计)人: | 周军;丁松;王洋;江武明 | 申请(专利权)人: | 北京眼神智能科技有限公司;北京眼神科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N3/04 |
代理公司: | 北京恩赫律师事务所 11469 | 代理人: | 刘守宪;李善学 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 卷积 神经网络 压缩 方法 装置 存储 介质 设备 | ||
本发明公开了一种深度卷积神经网络压缩方法、装置、存储介质及设备,属于模式识别领域。该方法包括:获取DCNN、精简网络和训练集;使用训练集训练DCNN;从训练集的每个类别中随机选取一个样本组成训练子集;将训练子集输入训练好的DCNN,提取第一特征矩阵,并得到在DCNN的特征层或分类层的输出;将训练子集中样本的标签替换为DCNN的输出;从训练子集中分批取出样本输入精简网络,计算损失函数并更新精简网络的参数;重复上述步骤,直至训练子集中所有样本被取出;迭代上述步骤一定次数,完成精简网络的训练。本发明提高了精简网络算法的准确率,加速了精简网络模型的收敛。
技术领域
本发明涉及模式识别领域,特别是指一种深度卷积神经网络压缩方法、装置、计算机可读存储介质及设备。
背景技术
卷积神经网络(Convolutional Neural Network,CNN),也简称为网络,是一类模式识别方法。该方法旨在使用卷积的方法对图像等数据进行表征量化,进而完成分类或是回归任务。该方法目前在图像分类、语音识别等方向表现出了优异的性能。
近年来随着深度学习的发展,为了显著的提升模型准确率,网络的计算量和参数随之大幅增加,这种巨大的网络模型也称为深度卷积神经网络(Deep ConvolutionalNeural Network,DCNN)。但是这些DCNN在部署阶段,往往需要占用巨大内存资源,同时运行起来极其耗时,尤其是在移动终端上,运算资源有限,导致这些准确率高的DCNN在实际的运用过程中举步维艰。
为了在更多场景中应用DCNN,需要对DCNN模型进行压缩和加速,常用的模型压缩加速算法有模型裁剪法、模型搜索法等。但是这些方法压缩后得到的精简网络的准确率很难满足要求,效果较差。
发明内容
为解决上述技术问题,本发明提供一种深度卷积神经网络压缩方法、装置、存储介质及设备,提高了精简网络算法的准确率,加速了精简网络模型的收敛。
本发明提供技术方案如下:
第一方面,本发明提供一种深度卷积神经网络压缩方法,所述方法包括:
步骤S1:获取DCNN、与DCNN对应的精简网络和训练集,所述训练集包括多个类别的样本,所述样本上设置有表示该样本类别的标签;
步骤S2:使用训练集训练DCNN;
步骤S3:从训练集的每个类别中随机选取一个样本,组成训练子集;
步骤S4:将训练子集输入训练好的DCNN,提取第一特征矩阵,并得到训练子集中每个样本在DCNN的特征层或分类层的输出;
步骤S5:将训练子集中每个样本的标签替换为该样本在DCNN的特征层或分类层的输出;
步骤S6:从训练子集中取出一批样本输入精简网络,得到第二特征矩阵;
步骤S7:根据第一特征矩阵、第二特征矩阵和替换后的标签计算损失函数;
步骤S8:采用随机梯度下降法更新精简网络的参数;
步骤S9:判断训练子集中是否有样本未被取出,若是,返回步骤S6,否则,执行步骤S10;
步骤S10:判断是否达到迭代次数,若是,完成精简网络的训练,结束,否则,返回步骤S3。
进一步的,所述损失函数的计算公式为:
Loss(Ibatch,batch)=Softmaxloss(pre_logit,batch)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京眼神智能科技有限公司;北京眼神科技有限公司,未经北京眼神智能科技有限公司;北京眼神科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911138226.7/2.html,转载请声明来源钻瓜专利网。