[发明专利]基于可微决策器和知识蒸馏的神经网络剪枝方法及系统在审
申请号: | 202111387877.7 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114091668A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李佳鑫;刘德荣;王永华;赵博 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 决策 知识 蒸馏 神经网络 剪枝 方法 系统 | ||
本发明提出一种基于可微决策器和知识蒸馏的神经网络剪枝方法及系统,包括:对神经网络进行预训练;为预训练后的神经网络中的每一层卷积层构建可微决策器,对网络中的每一层进行采样并截断,得到每一层的剪枝率;对神经网络进行剪枝,得到剪枝后的网络;使用知识蒸馏方法对神经网络进行优化;对优化后的神经网络进行训练,恢复其准确度。通过在神经网络中的每一层卷积层构建可微决策器,并优化可微决策器的可训练参数,不需要人类专家的经验和人工的设计,减少人工的参与,实现快速自动化准确的神经网络结构搜索,得到神经网络的剪枝率,对神经网络进行剪枝,得到最优的神经网络结构并节省大量时间。
技术领域
本发明涉及深度学习领域,更具体地,涉及一种基于可微决策器和知识蒸馏的神经网络剪枝方法及系统。
背景技术
近年来,深度学习在图像识别、自然语言处理和物体检测等领域有着广泛的应用且取得了不错的成就。深度神经网络的发展也让深度学习研究更加火热,越来越大的神经网络模型不断地刷新着深度学习任务的榜单。然而,庞大的网络模型难以部署到大多数资源有限的设备上,这大大限制了深度学习的落地应用。因此,针对以上问题,人们提出了许多模型压缩的方法,如剪枝、知识蒸馏、量化和低秩近似等,且都取得了不错的效果。
现有的神经网络是过参数化的,即神经网络中存在着大量的冗余参数。神经网络剪枝是通过剪除神经网络中的冗余参数,以此来达到缩减网络模型的大小和计算量的目的。在卷积神经网络中,主要的参数存在于滤波器中。因此,对卷积神经网络剪枝就是剪除其每一层中的一定数量的滤波器,以此来减少网络参数量。而在卷积神经网络中,滤波器的个数与输出通道的个数相等,因此,剪除通道数和剪除滤波器是一致的。换句话说,卷积神经网络剪枝就是通过剪除每一层的特定数量的通道,以找到每一层应该要保留的通道,以得到压缩后的网络。
现有一种基于多层级知识蒸馏的预训练语言模型自动压缩方法,所述方法包括如下步骤:步骤一、构建多层级知识蒸馏,在自注意力单元、隐藏层状态、嵌入层三个不同层级上蒸馏大模型的知识结构;步骤二、训练元学习的知识蒸馏网络,生成多种预训练语言模型的通用压缩架构;步骤三、基于进化算法搜索最佳压缩结构。首先,研究基于元学习的知识蒸馏生成多种预训练语言模型的通用压缩架构;其次,在已训练好的元学习网络基础上,通过进化算法搜索最佳压缩结构,由此得到与任务无关的预训练语言模型的最优通用压缩架构。
然而,上述方法基于进化算法的对压缩结构进行搜索,需要花费大量的时间来挑选候选网络进行演化,很大程度地降低了网络的压缩效率。
发明内容
本发明为提高神经网络的压缩效率,提供一种基于可微决策器和知识蒸馏的神经网络剪枝方法及系统。
为解决上述技术问题,本发明的技术方案如下:
第一个方面,本发明提出一种基于可微决策器和知识蒸馏的神经网络剪枝方法,包括以下步骤:
S1:对待剪枝的神经网络进行预训练;
S2:为预训练后的神经网络中的每一层卷积层构建一个可微决策器,并利用可微决策器对神经网络中的每一层卷积层进行采样并截断,得到每一层的剪枝率;
S3:根据神经网络中每一层的剪枝率和每一层的原始输出通道数,确定每一层剪枝后的输出通道数,对神经网络进行剪枝,得到剪枝后的神经网络;
S4:使用知识蒸馏方法对剪枝后的神经网络进行优化,得到优化后的神经网络;
S5:对优化后的神经网络进行训练,得到经过剪枝且恢复准确度的神经网络。
优选地,S2具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111387877.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗菌内衣的制作工艺
- 下一篇:一种立式金属罐的铺尺器