[发明专利]一种基于多张量核心处理器的卷积计算数据重用方法在审
申请号: | 202111248647.2 | 申请日: | 2021-10-26 |
公开(公告)号: | CN116028384A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 高伟;叶楠;王洪磊;杨晋喆 | 申请(专利权)人: | 太初(无锡)电子科技有限公司 |
主分类号: | G06F12/0842 | 分类号: | G06F12/0842;G06F13/28;G06F15/78;G06F17/15 |
代理公司: | 中国商标专利事务所有限公司 11234 | 代理人: | 张立晶 |
地址: | 214000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 核心 处理器 卷积 计算 数据 重用 方法 | ||
本发明的一种基于多张量核心处理器的卷积计算数据重用方法,控制核心通过DMA将多个不同的输入特征图分别分配给多个张量核心的片上高速缓存SPM;控制核心通过DMA将卷积核广播到前述多个张量核心的片上高速缓存SPM;前述多个张量核心依据各自的片上高速缓存SPM的输入特征图、卷积核进行计算;前述多个张量核心完成计算后,将计算结果写回内存,之后广播更新卷积核重复步骤s2,直到将所有卷积核广播一遍,得到不同输出特征图的最终结果,写回内存。通过显著降低卷积计算在多张量核心处理器上的内存访存需求,充分发挥众核计算能力,提升多张量核心处理器的计算性能。
技术领域
本发明涉及一种
背景技术
深度神经网络中的绝大部分计算为卷积计算,卷积神经网络的训练和推理过程中,卷积操作占据了绝大部份的计算量,因此神经网络硬件加速器通常会设计专门的计算部件以实现卷积运算的加速。卷积加速部件一般采用的张量处理器(Tensor ProcessingUnit,TPU),可以高效地集成大量乘法部件,以实现很高的芯片面积利用率和芯片效能比。
对于计算密集型的函数,比如深度学习中的卷积,如何及时地给强大的张量计算核心提供足够多的数据,是当前需要解决的问题。
深度学习中的卷积算子如图1所示:
上述卷积运算也可以描述为以下的7层循环:
for n in N://第6层:输入特征图数量
for m in M://第5层:输出通道
for h in E://第4层:输出特征图高度
for w in F://第3层:输出特征图宽度
for r in R://第2层:卷积核高度
for s in S://第1层:卷积核宽度
for c in C://第0层:输入通道
f_out[n][e][f][m]+=ker[m][r][s][c]*f_in[n][e+r][f+s][c]//加法在R、S、C上累加,合并成1个数
其中f_in代表输入特征图数据,ker代码卷积核数据,f_out代表输出特征图数据。
这7层循环的顺序在数学上是可以互换的。
上述示例,将7层循环按顺序遍历完成即可得到卷积计算的最终结果。另外一种实现方式,就是将该7层循环进行数据格式转换,变成通用的矩阵乘计算,从而达到快速计算的目的。
不论是7重循环遍历,还是转变成矩阵乘运算,均存在着较高的数据重复访存,会显著增加访存的压力,降低张量核心获取数据的速度,从而影响最终的运算速度。
发明内容
本发明的目的是提供一种基于多张量核心处理器的卷积计算数据重用方法,通过显著降低卷积计算在多张量核心处理器上的内存访存需求,充分发挥众核计算能力,提升多张量核心处理器的计算性能。
本发明是基于多张量核心处理器的卷积计算数据重用方法,其中:
所述多张量核心处理器包括控制核心、多个张量核心阵列;
控制核心用于程序的初始化、I/O、通信以及对多个张量核心阵列分配任务;控制核心对多个张量核心阵列分配任务是通过DMA(Direct Memory Access直接存储器访问)将需要的数据(输入特征图和卷积核)读取到每个张量核心的片上高速缓存SPM;
张量核心阵列包括多个张量核心,可以通过并行加速卷积整体计算过程,每个张量核心设有片上高速缓存SPM,可以单独完成复杂的卷积计算;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太初(无锡)电子科技有限公司,未经太初(无锡)电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111248647.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:低氮燃烧器
- 下一篇:一种正丁烷氧化催化剂及其制备方法和应用