[发明专利]一种硬件加速器多阵列并行计算方法及系统在审
申请号: | 202210744277.X | 申请日: | 2022-06-28 |
公开(公告)号: | CN114970849A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 梅魁志;常含;赵英海;程军;高凡;朱雷;黄城栋;何云新;贺政 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李鹏威 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 硬件 加速器 阵列 并行 计算方法 系统 | ||
本发明公开了一种硬件加速器多阵列并行计算方法及系统,对硬件加速器中的卷积运算进行分块处理;根据分块处理后的单层卷积,加载GEMM运算对应的输入数据、权重数据,根据加载的输入数据、权重数据以及数据在加速器缓存中的起始地址并行进行计算,通过多阵列的方式实现GEMM的高效运算,理想状态下能够节省GEMM运算接近至少一半的运算时间,提升基于卷积的神经网络在张量加速器上的推理效率,本发明多阵列的并行计算方式可减少权重数据的重复加载,缩小计算时间和访存时间的差距,提升卷积运算的效率,各计算模块可以并行计算,将不同模块的计算结果直接保存到根据基地址和偏移地址计算出的缓存地址中,保证了计算结果的正确性。
技术领域
本发明属于神经网络张量加速器设计工程技术领域,具体涉及一种硬件加速器多阵列并行计算方法及系统。
背景技术
基于卷积神经网络的算法凭借其快速、高效的特点在自然语言处理、目标检测等领域都发挥了重要作用。卷积神经网络相关应用程序的开发和快速落地也已经逐渐成为热点问题,对于军工等对功耗和效率有高要求的特殊领域也具有重要意义。随着算法的更新迭代,模型越来越复杂,导致只靠通用处理器和图形处理器无法完成高效实时计算。
通用的张量硬件加速器一般采用通用矩阵乘法(General MatrixMultiplication,GEMM)算法加速矩阵运算,通过对输入矩阵进行分块读取,减小访存压力。同时可以通过对矩阵运算具体实现过程中的多层循环进行分块、展开、重排序等,提升运算效率。
目前存在的硬件加速器有以下缺点:
GEMM运算有多种实现方式,但是都只能通过单阵列对矩阵运算进行加速。当缓存资源足够时,访存执行完毕后会等待单阵列GEMM运算结束,才能继续进行访存操作,造成效率低下,缓存资源浪费。
发明内容
本发明的目的在于提供一种硬件加速器多阵列并行计算方法及系统,以克服现有技术的不足。
一种硬件加速器多阵列并行计算方法,包括以下步骤:
S1,对硬件加速器多阵列中的卷积运算进行分块处理;
S2,根据分块处理后的单层卷积计算,加载GEMM运算所需的输入数据以及权重数据,根据加载的输入数据、权重数据及数据在缓存中的起始地址进行多阵列并行计算;
S3,将多阵列并行计算的中间结果数据存入各计算模块对应的累加缓存地址中。
优选地,将卷积运算的具体分为在芯片或FPGA上实现输入与权重数据读取与计算的片上与片外12层循环控制,其中外层4层循环表示对卷积分块读取后的输入与权重数据的片外循环读取控制,内层的8层循环表示在部署了加速器的硬件片上完成的GEMM运算对应的卷积分块读取与计算循环控制,其中的最内层2层循环表示向量-矩阵乘法。
优选地,单次GEMM运算加载的输入数据大小为(CI_in×ho_in×wo_in×CHAN_IN);加载权重数据的大小为(CO_in×kw×kh×CHAN_IN×CHAN_OUT),根据加载数据大小及权重,得到(CI_in×CO_in×ho_in×wo_in×CHAN_OUT)大小的累加运算结果;
其中ho_in和wo_in分别为fea_inp数据的分块大小,kw、kh为卷积核的大小,CHAN_IN和CHAN_OUT表示GEMM运算中的最小运算单元,即一个计算阵列的大小为(1,CHAN_IN)×(CHAN_IN,CHAN_OUT),也表示GEMM核每次最少完成这个大小的向量-矩阵乘法运算。
优选地,将内层8层循环中除去2层向量矩阵乘循环的中间6层循环对应成三层循环控制。
优选地,其中最内层循环设定了输入数据、权重数据、累加结果数据在缓存中的基地址,与外两层循环的偏移量相加,得到数据在缓存中的实际地址,访问缓存读取数据,执行向量-矩阵乘法,将乘累加的结果写回累加缓存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210744277.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:天线装置及终端
- 下一篇:一种陶瓷共烧连接方法