[发明专利]一种基于压缩神经网络的二阶段量化实现方法及装置在审

申请号：	202210458582.2	申请日：	2022-04-24
公开（公告）号：	CN114781615A	公开（公告）日：	2022-07-22
发明（设计）人：	杨文鑫;支小莉;童维勤	申请（专利权）人：	上海大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	上海上大专利事务所(普通合伙) 31205	代理人：	何文欣
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于压缩神经网络阶段量化实现方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于压缩神经网络的二阶段量化实现方法及装置。该方法包括以下步骤：(1)根据神经网络的目标任务，使用CPU或GPU将神经网络模型训练至收敛。(2)根据目标任务所需的神经网络的压缩率，设置神经网络每层的目标稀疏度，逐阶段地对权值进行剪枝。(3)根据目标任务预设的量化位宽，二阶段地量化神经网络每层的权值，量化的第一阶段是聚类，使用聚类算法聚类神经网络每层的权值；第二阶段是放缩，根据目标任务预设的量化位宽，将得到的聚类中心放缩到定点数，最终结果以三元组的形式存储每层的权值矩阵。本发明能够减少模型所需的计算成本和存储成本，提升模型的推理速度，并且可以有效地弥补传统线性量化在低位宽下的精度损失。

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于压缩神经网络的二阶段量化实现方法及装置。

背景技术

深度神经网络在图像分类、目标检测、语音合成和语义分割等复杂的应用中具有很高的辨别能力。但是这些模型需要的大量计算成本和存储成本，使得它们无法很好的部署在边缘端设备。对于能够通过网络连接访问强大计算资源的项目，部署大型的神经网络可能不会产生资源紧张的问题。然而，对于嵌入式硬件平台上的边缘计算，由于安全、隐私和延迟等主要的考虑因素(例如智能传感器、穿戴设备、自动驾驶和无人驾驶飞行器跟踪)，使得它的推理必须在本地或网络边缘执行，因此可供使用的计算资源有限，同时这种计算受到严格的区域和功率限制。

为解决神经网络的计算成本和存储成本问题。研究者提出对神经网络进行压缩和量化。聚类是一种常用的神经网络压缩技术，该方法多用于将神经网络模型最大化地压缩，研究者通过在神经网络的权值矩阵中存储聚类标签，来将浮点数的权值矩阵转化为定点数，但聚类标签本身并不能用作计算，在网络推理时，仍使用的是浮点数的聚类中心。通过量化将浮点数权值转化为定点数权值的思想在上世纪90年代就被提出了，量化后的神经网络可以使用定点数计算来加速网络的推理。线性量化是一种常用的量化方法，该方法在8bit量化位宽上，不会造成神经网络模型推理准确率的明显下降，但是当使用线性量化将模型量化6bit以下，该网络模型会丧失推理能力。目前的边缘端设备，例如FPGA、ASIC等，可以通过自定义加法器、乘法器和存储器的位宽，使模型能够使用低位宽权值进行推理加速。因此如何同时对模型进行压缩和量化，如何弥补低位宽量化过程中的精度损失，是目前研究的难点。

发明内容

针对现有技术存在的问题，本发明的目的是提出一种基于压缩神经网络的二阶段量化实现方法及装置，以在保证神经网络压缩的同时，提高神经网络模型在低位宽量化下的模型推理准确率。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于压缩神经网络的二阶段量化实现方法，包括以下步骤：

S1、根据神经网络的目标任务，使用CPU或GPU将神经网络模型训练至收敛。

S2、根据目标任务所需的神经网络的压缩率，设置所述神经网络每层的目标稀疏度，逐阶段地对权值进行剪枝。

S3、根据目标任务预设的量化位宽，二阶段地量化神经网络每层的权值，第一阶段是聚类，使用聚类算法聚类神经网络每层的权值；第二阶段是放缩，根据目标任务预设的量化位宽，将得到的聚类中心放缩到定点数，最终结果以三元组的形式存储每层的权值矩阵。

优选地，所述步骤S2中的根据目标任务所需的神经网络的压缩率，设置所述神经网络每层的目标稀疏度，具体包括：根据目标任务所需的神经网络的压缩率，除神经网络第一层外，设置所述神经网络其余每层的目标稀疏度；神经网络每层的目标稀疏度，由每层网络各自的所属的类型，以及该层网络所处在所述神经网络的深度决定。

优选地，所述步骤S2中的逐阶段地对权值进行剪枝，具体包括：根据所诉神经网络每层的目标稀疏度、初始稀疏度和预设的剪枝频率，确定每层网络本阶段所需剪枝的权值数M，其中M为正整数，将未剪枝的权值量级最小的M个权值确定为本阶段所需剪枝的权值，逐阶段地对神经网络每层的权值进行剪枝。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210458582.2/2.html，转载请声明来源钻瓜专利网。

上一篇：分瓣式多层隔板快速装模装置及方法
下一篇：用于激光增材制造系统的宽带激光熔覆头

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于压缩神经网络的二阶段量化实现方法及装置在审

专利文献下载