[发明专利]适用于微处理器的快速卷积方法及装置有效
申请号: | 202011103515.6 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112199636B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 丁贵广;温发琥 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/15 | 分类号: | G06F17/15;G06F17/16;G06N3/10 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 秦莹 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 微处理器 快速 卷积 方法 装置 | ||
1.一种适用于微处理器的快速卷积方法,其特征在于,包括:
对获取的输入特征在空间维度进行分区,并将分区后得到的小块同步到对应的通道,各个通道并行完成Winograd域的输入变换;将分区后得到的小块同步到对应的通道具体包括:将分区后得到的小块通过单指令多数据运算SIMD同步到对应的通道;
将权重同步到对应的通道,各个通道并行完成Winograd域的权重变换;将权重同步到对应的通道具体包括:将权重通过SIMD同步到对应的通道;
对变换后的输入特征和对应的变换后的权重进行矩阵乘法,并将矩阵乘法的结果进行输出变换,返回到空间域中作为卷积计算结果;对变换后的输入特征和对应的变换后的权重进行矩阵乘法具体包括:
对于参与运算的矩阵A和矩阵B,首先对于右乘矩阵B按照寄存器的块因子进行打包处理,然后在矩阵A和矩阵B所对应的存储空间中对应的位置,取预设的各自的块因子单位的小矩阵块,将这两个小矩阵块进行点积,得到的计算结果即为整体矩阵A和矩阵B矩阵乘法的对应位置的子矩阵,最后,按照块因子遍历矩阵A和矩阵B的各个维度的子矩阵,最终计算出矩阵A和矩阵B矩阵乘法的结果。
2.根据权利要求1所述的方法,其特征在于,
所述输入特征具体包括:输入图像或者3D特征;
所述微处理器为ARM设备。
3.一种适用于微处理器的快速卷积装置,其特征在于,包括:
分区变换模块,用于对获取的输入特征在空间维度进行分区,并将分区后得到的小块同步到对应的通道,各个通道并行完成Winograd域的输入变换;分区变换模块具体用于:将分区后得到的小块通过单指令多数据运算SIMD同步到对应的通道;
权重变换模块,用于将权重同步到对应的通道,各个通道并行完成Winograd域的权重变换;权重变换模块具体用于:将权重通过SIMD同步到对应的通道;
矩阵乘法模块,用于对变换后的输入特征和对应的变换后的权重进行矩阵乘法,并将矩阵乘法的结果进行输出变换,返回到空间域中作为卷积计算结果;所述矩阵乘法模块具体用于:对于参与运算的矩阵A和矩阵B,首先对于右乘矩阵B按照寄存器的块因子进行打包处理,然后在矩阵A和矩阵B所对应的存储空间中对应的位置,取预设的各自的块因子单位的小矩阵块,将这两个小矩阵块进行点积,得到的计算结果即为整体矩阵A和矩阵B矩阵乘法的对应位置的子矩阵,最后,按照块因子遍历矩阵A和矩阵B的各个维度的子矩阵,最终计算出矩阵A和矩阵B矩阵乘法的结果。
4.根据权利要求3所述的装置,其特征在于,
所述输入特征具体包括:输入图像或者3D特征;
所述微处理器为ARM设备。
5.一种适用于微处理器的快速卷积装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至2中任一项所述的适用于微处理器的快速卷积方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至2中任一项所述的适用于微处理器的快速卷积方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011103515.6/1.html,转载请声明来源钻瓜专利网。