[发明专利]一种基于随机敏感度ST-SM的深度神经网络剪枝方法及系统在审
申请号: | 202110294928.5 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112884149A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 吴永贤;何扬;王婷;钟灿琨 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 广州名扬高玥专利代理事务所(普通合伙) 44738 | 代理人: | 郭琳 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 敏感度 st sm 深度 神经网络 剪枝 方法 系统 | ||
本发明公开了一种基于随机敏感度ST‑SM的深度神经网络剪枝方法及系统,利用随机敏感度衡量剪除节点对后继层输出的影响,以此为依据挑选需要剪除的节点,有效减少剪枝过程对网络性能的损害;利用权重补偿重建被剪枝层的节点输出,以减少剪枝过程中的模型性能退化,用训练集样本构造补偿权重需满足的方程组,通过共轭梯度预处理正则方程CGPCNE方法解出补偿权重值,并对剩余节点权重进行补偿;利用重训练改善剪枝后模型的性能,该方法能在维持模型原有性能的前提下,利用剪枝移除深度神经网络中的节点,对深度神经网络模型进行压缩与加速,有效减少模型空间开销,提升运行效率。
技术领域
本发明涉及机器学习领域,尤其涉及一种基于随机敏感度ST-SM的深度神经网络剪枝方法及系统。
背景技术
深度神经网络(Deep Neural Network,DNN)在机器学习、人工智能领域具有重要意义,其广泛应用于图像分类、目标检测、语音识别等细分领域。然而,深度神经网络的应用受制于其高昂的空间和时间开销。由于深度神经网络由多个层堆叠而成,每个层又由多个节点组成,存储、运行深度神经网络模型需要占用大量硬盘、内存空间,且运算量大,需要依赖专门的硬件如GPU等才能满足响应时间要求。因此,本文提出一种基于随机敏感度的深度神经网络剪枝方法,该方法通过随机敏感度对深度神经网络中的节点进行评估,对较不敏感的节点作剪枝,减少节点参数数量,并对剪枝后的网络模型进行权重补偿和重训练,改善其性能,进而在不影响模型精度的前提下,实现较有效的深度神经网络压缩和加速。
目前,解决深度神经网络空间和时间开销过大问题的方法主要有:剪枝、权重量化和聚簇、张量分解、采用轻量化结构等。其中,基于剪枝的方法通过移除深度神经网络模型的组成成分,如连接、节点等来达到压缩和加速的目的。基于剪枝的方法主要分为非结构化剪枝和结构化剪枝两类。非结构化剪枝在剪枝时以连接为单位,被删除的连接权重被置为0,若一个节点的所有相关连接的权重都被置为0,则这个节点对网络无任何影响,此种情况下该节点会被删除。非结构化剪枝可实现较高的压缩率,但由于被置0的连接零散地分布在各个节点中,它们虽然已经被删除,却仍然占用存储空间,需要通过专门的稀疏编码方式来存储才能实现真正的压缩和加速效果。因此,非结构化剪枝的实际应用依赖于专门的软件和硬件,应用范围受到限制。与非结构化剪枝不同,结构化剪枝通过移除节点、卷积核、模块等更大的单元来实现压缩与加速。这一区别带来的好处是,经过结构化剪枝的深度神经网络模型仅在节点等单元数量上与原来不同,不需要依赖专门的软件和硬件,更容易为现有神经网络框架所支持。但由于每次移除的是整个的节点,结构化剪枝对深度神经网络模型的性能影响较大,实现的压缩率较非结构化剪枝低。
现有的剪枝方法中,如何选择要删除的节点,是一个重要的问题。现有的基于剪枝的深度神经网络模型压缩和加速方法主要是通过节点的权重范数来衡量节点的重要性,如通过节点的L1、L2范数判断节点重要性,并将范数较小的节点删除。Han等人通过连接的L1范数来衡量其重要性,并删除范数较小的连接。Li等人通过卷积核的L1范数来衡量卷积核。然而,Zhuang等人的研究表明,范数较小的连接或节点,对模型的最终输出可能会有重要意义。为解决这一问题,Guo等人提出一种基于剪枝-恢复的迭代方法,他们仍以L1范数为衡量标准,并在剪枝的过程中,寻找已被剪去的重要的连接,将其恢复。由于这些方法仍然是基于连接或节点的权重范数,它们并不能很好地反映连接或节点对网络的意义。
如何处理剪枝过程中带来的模型性能下降,是剪枝方法需要应对的另一个重要问题。Han、Luo等人的方法中利用重训练来恢复剪枝后模型的性能。但由于在剪枝过程中,由于节点的大量移除,模型的性能迅速下降,如在移除节点的过程中不断进行迭代式的重训练,则其耗费的时间极长;如在移除所有节点后才进行重训练,则由于大量节点被删除,这些被删除节点在初次训练时学到的信息已经丢失,无法在重训练时被剩余节点所利用,因此重训练后的模型性能较差。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于随机敏感度ST-SM的深度神经网络剪枝方法及系统,所述方法包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110294928.5/2.html,转载请声明来源钻瓜专利网。