[发明专利]一种4比特量化推理的方法、装置、设备及可读介质在审

申请号：	202010980722.3	申请日：	2020-09-17
公开（公告）号：	CN112200311A	公开（公告）日：	2021-01-08
发明（设计）人：	王曦辉	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06N3/063	分类号：	G06N3/063;G06N3/08;G06N5/04
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	刘小峰;陈黎明
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种比特量化推理方法装置设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种4比特量化推理的方法，包括以下步骤：训练生成伪量化模型，将伪量化模型中的归一化层合并入卷积层；对权重参数的数据类型进行等价变换和再量化，以将伪量化模型转换为量化模型；基于量化模型将常量折叠合并以生成输出数据类型为int4的推理模型；以及基于推理模型进行推理计算。本发明还公开了一种4比特量化推理的装置、计算机设备和可读存储介质。本发明实现GPU上的4比特推理，避免CPU中缺少int4这种数据类型而导致数据无法存储的问题，同时使模型体积为原始模型的1/8，推理时占用的内存也会减少，变为原来的1/8，大大加速了推理计算的过程。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种4比特量化推理的方法、装置、设备及可读介质。

背景技术

Neural Network模型一般都会占用很大的磁盘空间，比如AlexNet的模型文件就超过了200MB，模型包含了数百万的参数，绝大部分的空间都用来存储这些模型的参数。这些参数是浮点数类型的，普通的压缩算法很难压缩它们的空间。

一般模型的内部的计算都采用了浮点数计算，浮点数的计算会消耗比较大的计算资源(空间和cpu/gpu时间)，如果在不影响模型准确率的情况下，模型内部可以采用其他简单数值类型进行计算的话，计算速度会提高很多，消耗的计算资源会大大减小，尤其是对于移动设备来说，这点尤其重要。

由此引入量化技术，量化即通过减少表示每个权重所需的比特数来压缩原始网络。现有技术中，谷歌的tensorflow中提供的量化感知训练。目前大多数训练和推理框架都支持int8量化，对于8比特量化模型可以压缩到1/4，网络的运行速度会大大提升。相比于8比特量化，4比特量化可以在8比特的基础上将模型的体积继续压缩1倍，运行速度提升50％。但是4比特由于最大只能表征16个数，因此会导致模型的分类精度下降。因此，目前大多数训练和推理框架都没支持int4的量化。由于主流推理框架不支持int4的推理，在模型推理中无法使用int4来加速网络的推理过程。另外，cpu中没有int4这种数据类型，也会导致实际运行困难。对于int4的量化算法大部分停留在理论层面，实用困难。

发明内容

有鉴于此，本发明实施例的目的在于提出一种4比特量化推理的方法、装置、设备及可读介质，实现GPU上的4比特推理，避免CPU中缺少int4这种数据类型而导致数据无法存储的问题，同时使模型体积为原始模型的1/8，推理时占用的内存也会减少，变为原来的1/8，大大加速了推理计算的过程。

基于上述目的，本发明实施例的一方面提供了一种4比特量化推理的方法，包括以下步骤：训练生成伪量化模型，将伪量化模型中的归一化层合并入卷积层；对权重参数的数据类型进行等价变换和再量化，以将伪量化模型转换为量化模型；基于量化模型将常量折叠合并以生成输出数据类型为int4的推理模型；以及基于推理模型进行推理计算。

在一些实施方式中，对权重参数的数据类型进行等价变换和再量化包括：将权重参数的数据类型由uint4转换为int4；对int4数据类型的权重参数进行再量化。

在一些实施方式中，基于量化模型将常量折叠合并包括：将量化模型中连续卷积之间上层的反量化操作和下层的量化操作进行合并。

在一些实施方式中，基于量化模型将常量折叠合并包括：将量化模型中shortcut分支的常量进行折叠合并操作。

在一些实施方式中，基于推理模型进行推理计算包括：对卷积的输入值进行pad操作，并将输入值的数据类型转换为int4；对数据类型为int4的输入值进行卷积运算，并将每8个数据类型为int4的卷积结果组合生成一个新的数据类型为int32的卷积结果，并进行存储；将存储的卷积结果进行反量化操作；将反量化后的卷积结果转换为数据类型为int4的数据输出。

在一些实施方式中，将存储的卷积结果进行反量化操作包括：将卷积结果转换为浮点数后，与反量化系数相乘，并与卷积的偏置相加。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司，未经苏州浪潮智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010980722.3/2.html，转载请声明来源钻瓜专利网。

上一篇：基于块索引结构的文档检索方法、装置、介质和设备
下一篇：一种高度可调的光学组件与柔性PCB的焊接夹具及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种4比特量化推理的方法、装置、设备及可读介质在审

专利文献下载