[发明专利]适用于微处理器的快速卷积方法及装置有效
申请号: | 202011103515.6 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112199636B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 丁贵广;温发琥 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/15 | 分类号: | G06F17/15;G06F17/16;G06N3/10 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 秦莹 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 微处理器 快速 卷积 方法 装置 | ||
本发明公开了一种适用于微处理器的快速卷积方法及装置,所述方法包括:对获取的输入特征在空间维度进行分区,并将分区后得到的小块同步到对应的通道,各个通道并行完成Winograd域的输入变换;将权重同步到对应的通道,各个通道并行完成Winograd域的权重变换;对变换后的输入特征和对应的变换后的权重进行矩阵乘法,并将矩阵乘法的结果进行输出变换,返回到空间域中作为卷积计算结果。采用本发明可以有效加速卷积网络在ARM Cortex设备上的前向推断过程,同TensorFlow Lite量化卷积计算对比,同等参数配置的卷积计算操作,在ARM Cortex A72设备上实现了2倍加速效果。
技术领域
本发明涉及微处理器技术领域,尤其是涉及一种适用于微处理器的快速卷积方法及装置。
背景技术
卷积神经网络的使用使得嵌入式场景的视觉应用获得了普遍的效果提升。而移动端的ARM设备同桌面端及服务端具备大量计算资源的设备不同,ARM移动设备往往具有低功耗,计算能力相对较低,内存有限的劣势,而将计算密集的卷积网络计算部署在ARM设备也需要针对性的实现多种优化。
模型量化方法是一种针对于模型运算加速和功耗的降低均有着显著效益的网络模型轻量化方法,这一领域的研究证明,深度神经网络在低精度的表示下仍然具有着相当的准确率和在对应任务上的表现力。具有量化参数的低位数学运算与对神经网络的中间计算进行量化相结合,可带来较大的计算增益和更高的性能。除了性能优势之外,由于内存访问成本降低同时计算效率提升,量化神经网络还提高了功耗效率。使用低位量化数据仅需要较少的片内和片外数据移动,从而减少了存储器带宽并节省了大量能量。较低精度的数学运算(例如8位整数乘法)消耗更少的能量并提高了计算效率,从而降低了功耗。此外,减少用于表示神经网络参数的位数可以减少存储空间。而在产业界的应用中,结合嵌入式设备硬件条件,实现对于量化网络(8位整数矩阵)计算的原生支持以及真正意义上的端到端low precision计算,是实现网络模型性能加速,功耗降低的重要途径。
对于视觉任务而言,卷积神经网络的应用占据着主导地位。在这一网络模型中,卷积操作占据了绝大多数的计算,从而性能加速和功耗优化的瓶颈为卷积操作的实现。而在卷积的计算实现中,目前主要有GEMM-based Convolution(im2col)和快速卷积算法(FFT-based Convolution,Winograd Convolution)。基于GEMM的卷积算法的实现相对简单,在对数据实现简单的重组之后,便可以直接调用成熟的矩阵乘法实现卷积操作。而快速卷积方法,尽管具有比较高的实现难度,但可以有效实现卷积计算复杂度的降低。结合应用于移动端的轻量化网络的特点,网络中主要的卷积操作,其卷积核均为3x3。在理论研究和实践中,winograd快速卷积方法对于3x3卷积具有明显的计算复杂度优势。而另外一方面,结合量化网络参数的特点,由于winograd卷积自身的实现复杂性以及量化计算中数值表示精度的频繁变换,使得适用于桌面端以及浮点运算的Winograd算法不能高效实现。目前在移动端最为通用的卷积算法为im2col及其变种。而Winograd卷积的量化计算实现,目前在研究与应用中都不够成熟。
此外,卷积网络中的计算瓶颈在于卷积计算,而卷积计算的实现往往同矩阵乘法密切相关。主流的卷积实现方法都会直接或间接的将卷积运算转换为矩阵乘法计算。因此,卷积神经网络中的有效推理问题中的一大重点和难点在于矩阵乘法(在线性代数库中也称为GEMM)的有效实现。尽管HPC领域已经对于GEMM有了相当成熟的研究成果,但HPC领域对于GEMM的研究则是针对服务端具有大量的计算资源和充分的计算能力的x86架构的设备,同在边缘计算领域资源和能力均受限,并且以ARM架构设备为主导的场景存在着较大的偏差,而在这种场景下的量化计算则更是寥寥无几。另外,高性能计算中的矩阵乘法所关注的问题往往是规模较大的矩阵,而部署在移动端的神经网络中所涉及的矩阵运算往往没有达到这种规模,因此很多针对大矩阵运算的优化策略,在这里是多余的,同时还会带来额外的开销。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011103515.6/2.html,转载请声明来源钻瓜专利网。