[发明专利]基于自适应动态移位的8位整型全量化推理方法及装置在审
申请号: | 202010859153.7 | 申请日: | 2020-08-24 |
公开(公告)号: | CN111950715A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 谢远东 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 动态 移位 整型 量化 推理 方法 装置 | ||
本发明提供了一种基于自适应动态移位的8位整型全量化推理方法及装置,该方法包括:获取训练后的浮点模型;获取所述浮点模型中的每个通道的权重;通过KLD计算所述浮点模型中每一层的激活值;基于所述激活值,针对所述浮点模型的跳层和卷积通道打乱操作,确定转换因子,并预存所有定点化值和移位值;根据量化表获取浮点模型的定点的权重scale,并基于该权重,输出整型结果。本发明实施例提供的方法,按通道全定点量化大大减少了浮点转换到定点的误差,在推理过程中不涉及浮点操作,全定点移位操作,可以验证模型全量化后结果误差是否符合人工智能芯片需求,且自适应动态移位,避免固定移位带来的溢出误差,中间值由int32优化成int8进一步减少片上内存。
技术领域
本发明书一个或多个实施例涉及卷积神经网络(Convolutional NeuralNetworks,CNNs)技术领域,尤其涉及一种基于自适应动态移位的8位整型全量化推理方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
CNNs在图像分类、目标检测、人脸识别等领域取得了优越的成果,但由于网络结构的复杂性和计算延时,在存储资源和计算资源相对不足的嵌入式平台实现CNNs的实时前向推理,需要在控制精度损失的条件下,压缩神经网络的模型大小以及提升模型计算效率
现有技术对神经网络每一层进行均匀量化,对于权重和激活值进行量化,然后进行定点乘加,达到加速效果。
该技术存在以下问题:
第一、激活值采用均匀量化虽然计算量小,但是量化误差很大,几乎不可用;
第二、权重按层量化,对于多通道卷积层误差远大于按通道量化;
第三、现有技术在推理中依然需要进行浮点计算,在人工智能芯片AI Chip这种仅支持定点运算设备不可用。
发明内容
有鉴于此,本说明书一个或多个实施例描述了一种于自适应动态移位的8位整型全量化推理方法,可解决解决AI Chip型定点化性能验证问题,进一步减少片上内存。
本说明书一个或多个实施例提供的技术方案如下:
为解决上述问题,第一方面,本发明提供了一种基于自适应动态移位的8位整型全量化推理方法,该方法包括:
获取训练后的浮点模型;
按通道计算所述浮点模型中的每一层的权重;
计算所述浮点模型中每一层的激活值;
基于所述权重和所述激活值,针对所述浮点模型的跳层和卷积通道打乱操作,确定转换因子,并预存所有定点化值和移位值至量化表;
基于所述量化表,将每一层接受int8类型量化输入并生成int8量化输出。
在一个实施例中,,通过如下公式按通道计算所述浮点模型中的每一层的权重:
127/xmax
其中,xmax为该通道权重的最大值。
在一个实施例中,所述计算所述浮点模型中每一层的激活值,具体为:
准备校准数据集;
根据所述校准数据集初始化激活值分布;
对分布归一化处理,得到最小kl散度对应的threshold;
基于所述threshold,求得所述浮点模型中每一层的激活值。
在一个实施例中,所述归一化处理具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010859153.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:转运装置及上料系统
- 下一篇:一种基于加密芯片生产制造的点胶封装机构