[发明专利]基于Transformer模型的INT8离线量化及整数推断方法有效
申请号: | 202110232726.8 | 申请日: | 2021-03-03 |
公开(公告)号: | CN113011571B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 姜小波;邓晗珂;何昆;方忠洪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04;G06F7/483 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 霍健兰;梁莹 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 模型 int8 离线 量化 整数 推断 方法 | ||
本发明提供了一种基于Transformer模型的INT8离线量化及整数推断方法,包括如下步骤:将原始Transformer浮点模型中归一化层的L2范数转换成L1范数;进行模型训练;通过少量数据进行前向推断,获取各层矩阵运算的输入数据的量化系数,提取为一般浮点数据;获取浮点模型中各线性层的权重量化系数,提取为一般浮点数据,根据计算均方误差的方法确定各层中的最优权重量化系数;将推断过程中涉及量化操作的量化系数化为2‑n的浮点数形式,通过联合系数调整的方法来调整量化系数;基于调整后的量化系数结合L1范数的归一化层得到INT8的整数推断模型。本发明可减少模型计算所需硬件资源和模型量化带来的误差,降低硬件资源消耗和提高模型的推断速度。
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于Transformer模型的自然语言处理神经网络模型的INT8(8位整型)离线量化方法及整数推断方法。
背景技术
随着深度学习算法的出现,人工智能迎来了第三次爆发,而深度学习算法的参数量和计算复杂性的增长对硬件提出了更高的性能要求,设计深度学习领域的专用硬件加速器是解决这一需要的有效办法。如何减少深度神经网络计算的延迟和存储是神经网络算法落地和神经网络加速器设计的重要研究方向。
模型量化是解决上述问题的理想技术方法。一般情况下,自然语言处理模型的训练和推断阶段使用的都是单精度浮点数类型完成,但是浮点数计算会占用大量的计算资源和存储资源,执行速度也很慢。使用低比特的数据格式,计算逻辑相对简单,可以提高计算效率的同时降低功耗和资源消耗。与单精度浮点数计算相比,采用INT8运算最多可以节省30倍的计算能耗和116倍的芯片面积。因此,模型量化广泛应用于深度神经网络的压缩和加速。离线量化不需要进行反向传播,直接将训练好的模型进行量化,可以减少深度学习模型的部署时间。
Transformer模型作为自然语言处理领域新的通用模型,在各方面表现全面超越LSTM等传统神经网络所付出的代价是模型复杂度和网络参数量的倍增,导致对计算能力和功耗的需求的急剧提高,使得它们难以在边缘设备中运行。将现有的卷积神经网络的INT8离线量化方法直接使用到Transformer模型会带来精度损失。为了减少INT8量化带来的精度损失和提高边缘加速器的推断效率,急需一种针对Transformer浮点模型进行优化INT8离线量化及整数推断方法。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于Transformer模型的INT8离线量化及整数推断方法;该方法可减少模型计算所需硬件资源和模型量化带来的误差,为硬件加速器的设计提供数据量化和量化模型推断的技术方案。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于Transformer模型的INT8离线量化及整数推断方法,包括如下步骤:
S1,将原始Transformer浮点模型中归一化层的L2范数转换成L1范数;之后对Transformer浮点模型进行模型训练,获取训练后的浮点模型及其参数;
S2,通过少量数据进行前向推断,获取浮点模型中各层矩阵运算的输入数据的量化系数Sinput,提取为一般浮点数据;
S3,根据训练完的浮点模型,获取浮点模型中各线性层的权重量化系数,提取为一般浮点数据,根据计算均方误差的方法确定各线性层中的权重数据的最佳量化系数Sw;
S4,将推断过程中涉及量化操作的量化系数化为2-n的浮点数形式,通过联合系数调整的方法来调整量化系数;
S5,基于调整后的量化系数结合L1范数的归一化层得到INT8的整数推断模型。
进一步地,所述步骤S1中,根据以下公式进行归一化层的计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110232726.8/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法