[发明专利]一种基于可微量化训练的视觉Transformer压缩方法及系统在审
申请号: | 202210295189.6 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114756517A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李哲鑫;张一帆;王培松;程健 | 申请(专利权)人: | 中科南京人工智能创新研究院;中国科学院自动化研究所 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F17/16;G06K9/62;G06N3/04;G06T7/11;G06V10/774 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 张磊 |
地址: | 211135 江苏省南京市创*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 微量 训练 视觉 transformer 压缩 方法 系统 | ||
本发明公开了一种基于可微量化训练的视觉Transformer压缩方法及系统,属于人工智能的技术领域。包括以下步骤:步骤一、将输入图片进行分块处理,并通过线性映射转换成对应的图片序列;步骤二、将图片序列依次经过M次全局信息与局部信息的量化交替式处理,得到压缩后的图片序列;步骤三、将压缩后的图片序列进行分类处理,输出预测的概率值。在执行步骤一至步骤三时引入了可微量化步长训练方法,基于可微量化步长训练方法提高每次可微量化步长与图像数据的匹配度;同时,步骤二在执行局部信息量化时引入了可微量化偏置训练方法,基于可微量化偏置训练方法自动学习得到最优的量化区间,保留负激活区域的信息。降低了因量化导致的性能损失,提高了量化精度。
技术领域
本发明属于人工智能的技术领域,特别是涉及一种基于可微量化训练的视觉Transformer压缩方法及系统。
背景技术
近些年,基于Transformer结构的模型在各个自然语言处理(NaturalLanguageProcessing)任务中都取得了非常成功的结果。而在计算机视觉(ComputerVision)领域中,一些基于视觉Transformer(VisionTransformer)的工作也在各个视觉任务中取得了接近甚至超越传统卷积神经网络(ConvolutionalNeuralNetwork)的效果,包括分类、检测、分割、超分辨率、去噪等任务。然而,由于视觉Transformer具有非常大的参数量以及随输入图片分辨率平方级增长的计算量,其在推理时会带来较高的内存占用和较高的延迟,很难找在一些算力有限的设备上如移动端、自动驾驶芯片上部署。因此,探索合适的压缩技术,使得在大幅减少视觉Transformer模型大小和推理延迟的同时保持较低的性能损失是至关重要的。
量化作为一种有效的压缩技术在卷积神经网络中得到了大量的运用。不管卷积神经网络还是视觉Transformer模型,其核心操作上都是矩阵乘法。通过将模型中的原本为32位浮点数的权重和特征都量化成低比特的定点数,低比特定点矩阵乘法操作可以被用来替换原先的浮点数矩阵乘法操作,从而在压缩模型大小的同时加速推理。量化根据是否在量化后进行微调(finetune)分为后量化(Post-training Quantization)和量化训练(Quantization-aware Training)。对于视觉Transformer而言,已有的基于后量化的工作都造成了较大的性能损失。而传统的量化训练方法由于没有充分考虑视觉Transformer的特性,在低比特下的性能表现都不理想。
发明内容
本发明为解决上述背景技术中存在的技术问题,提供了一种基于可微量化训练的视觉Transformer压缩方法及系统。
本发明采用以下技术方案:一种基于可微量化训练的视觉Transformer压缩方法,包括以下步骤:
步骤一、将输入图片进行分块处理,并通过线性映射转换成对应的图片序列;
步骤二、将图片序列依次经过M次全局信息与局部信息的量化交替式处理,得到压缩后的图片序列;
步骤三、将压缩后的图片序列进行分类处理,输出预测的概率值;
在执行步骤一至步骤三时引入了可微量化步长训练方法,基于可微量化步长训练方法提高每次可微量化步长与图像数据的匹配度;同时,步骤二在执行局部信息量化时引入了可微量化偏置训练方法,基于可微量化偏置训练方法自动学习得到最优的量化区间,保留负激活区域的信息。
在进一步的实施例中,在执行可微量化步长训练方法和/或可微量化偏置训练方法时,还包括基于最小化均方误差的量化参数初始化。
在进一步的实施例中,所述可微量化步长训练方法同时适用于图像特征量化和图像权重量化;
其中,所述可微量化步长训练方法包括以下流程:
定义全精度的权重为w,量化后的定点权重为q,量化操作表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科南京人工智能创新研究院;中国科学院自动化研究所,未经中科南京人工智能创新研究院;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210295189.6/2.html,转载请声明来源钻瓜专利网。