[发明专利]一种卷积神经网络全INT8定点量化的方法有效
申请号: | 201911159756.X | 申请日: | 2019-11-22 |
公开(公告)号: | CN111260022B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 郭晓伟;杜鑫;丁永林;毛泉涌;张永晋;李炜;周明政;怀宇;王铜铜 | 申请(专利权)人: | 中国电子科技集团公司第五十二研究所 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/082 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 310012*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 卷积 神经网络 int8 定点 量化 方法 | ||
本发明公开了一种卷积神经网络全INT8定点量化的方法,包括:选取卷积神经网络模型,去除卷积神经网络模型中的上采样操作,保留多尺度特征输出,并训练得到浮点型网络模型;利用KL散度为所述浮点型网络模型中的每一个卷积层生成对应的权值量化阈值和激活值量化阈值;调整各卷积层对应的权值量化阈值,确定调整后的权值量化阈值;根据量化公式逐一量化各卷积层的权值,得到量化后的权值文件;基于权值文件,对所述浮点型网络模型中的residual结构增加阈值补偿操作,进行全INT8前向计算,获取较低精度损失的计算结果。本发明的方法得到的卷积神经网络模型中的所有运算均为定点运算,且量化后的模型精度损失小。
技术领域
本申请属于卷积神经网络的量化压缩技术领域,具体涉及一种卷积神经网络全INT8定点量化的方法。
背景技术
卷积神经网络在训练时,通常采用32位单精度浮点精度(Full Precise,简称FP32)的数据精度来表示网络权值、偏置、激活值等信息。因此将一个训练好的深层网络模型部署在计算能力和存储空间都相对有限的嵌入式平台时,需要进行低精度量化操作,即通过减少数据精度,比如用8位、6位甚至更极端的用2位或3位来代替float数据,在保证网络精度的前提下,减少模型对存储和计算资源的需求,降低网络推理延时。
模型量化主要包含两部分,分别为网络权值参数的量化以及网络激活值的量化。为了方便将网络部署在FPGA和ASIC芯片上,衍生出了很多低比特网络,比如二值化网络(Binarized Neural Networks,BNN)、三值化网络(Ternary Weight Networks,TWN)、XNOR-Net、DoReFaNet等,将权值、激活值用1bit或2bit来表示,继而将浮点乘除运算转换为位运算,但模型前向推理的精度跟浮点运算仍有一定差距,因此还处于研究阶段。
目前应用比较多的量化为INT8量化,利用8bit整数来表征权值和激活值,模型前向推理的精度几乎影响不大。对权值的量化很简单,由于预先知道每层网络层的权值数值范围,通过统计每层网络层权值最大值和最小值,将最小值~最大值的范围线性映射到0~256的范围。对激活值的量化,NVIDIA提出了利用KL散度来衡量FP32数据编码和INT8编码之间的差异,寻找使差异最小的阈值。目前开源框架TensorFlow以及用于移动端部署的NCNN框架均支持INT8定点化卷积运算,在每个网络层引入Quantize/Dequantize操作,完成FP32数据和INT8数据的相互转换。
以NCNN框架为例,在每层网络计算时,需要先对输入特征图进行Quantize操作,将预先通过校准数据集计算KL散度得到的scale乘以输入特征图的浮点像素值,然后将输入特征图压缩到INT8的数据范围;卷积计算完成后,需要对计算结果进行Dequantize操作,将卷积结果放大回FP32,再加上偏置输出。如果网络结构为连续的卷积层,则执行Requantize操作,合并了当前层的Dequantize以及下一层的Quantize操作,将当前卷积层输出重新量化为INT8。但是由于引入的Quantize/Dequantize/Requantize操作中均涉及到浮点运算,因此无法将量化后的网络直接部署在仅支持定点运算的设备,如FPGA端。
发明内容
本申请的目的在于提供一种卷积神经网络全INT8定点量化的方法,该方法得到的卷积神经网络模型中的所有运算均为定点运算,且量化后的模型精度损失小。
为实现上述目的,本申请所采取的技术方案为:
一种卷积神经网络全INT8定点量化的方法,用于将卷积神经网络中的所有操作涉及的参数进行INT8定点量化,所述卷积神经网络全INT8定点量化的方法,包括:
选取卷积神经网络模型,去除卷积神经网络模型中的上采样操作,保留多尺度特征输出,并训练得到浮点型网络模型;
利用KL散度为所述浮点型网络模型中的每一个卷积层生成对应的权值量化阈值和激活值量化阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十二研究所,未经中国电子科技集团公司第五十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911159756.X/2.html,转载请声明来源钻瓜专利网。