[发明专利]一种深度可分离卷积神经网络加速器架构有效
申请号: | 202010628683.0 | 申请日: | 2020-07-02 |
公开(公告)号: | CN111898733B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 孙宏滨;任杰;李宝婷;张旭翀;汪航;郑南宁 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/063 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 闵岳峰 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 可分离 卷积 神经网络 加速器 架构 | ||
1.一种深度可分离卷积神经网络加速器架构,其特征在于,包括:
外部存储器,用于存储输入的待处理图片的像素数据和深度可分离卷积神经网络的权重数据;
特征图缓存,用于暂存从所述外部存储器读取的待处理图片像素数据以及神经网络计算的特征图结果;
权重缓存,用于暂存从所述外部存储器读取的深度可分离卷积神经网络的权重数据;
计算引擎模块,用于对从所述特征图缓存与权重缓存分别读取特征图数据与权重数据进行卷积计算;所述计算引擎模块包括动态可重配置计算单元阵列,其计算单元进行乘加计算,用于实现卷积神经网络的卷积,加法树用于实现对不同输入通道的计算结果累加,BN模块用于批标准化计算,Relu计算模块用于实现激活函数,池化模块用于实现全局平均池化,其工作模式由控制配置模块配置,部分和缓存用于存储一维卷积的部分和;所述计算引擎模块采用两种基于行的计算顺序,当特征图数据相较权重数据多时,因此先将所有输出通道特征图的同一行计算完毕,再切换下一行,采用如下公式表示:
其中N为输出通道数,M为输入通道数,n为当前输出通道数,m为当前输入通道数,fh为输入特征图行数,fw为输入特征图列数,kh为卷积核行数,h为二维数据的行,kw为卷积核列数,w为二维数据的列,in为输入特征图,filter为权重,out为输出特征图;
当权重数据相较特征图数据多时,先按行计算完一组输出通道的特征图再切换下一组通道的特征图,计算顺序采用如下公式表示:
控制配置模块,用于配置所述计算引擎模块的计算模式以及控制所述特征图缓存与权重缓存的读写。
2.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述特征图缓存具有完全相同的两个缓存a与b,用于存储初始图片像素数据以及中间层的计算结果,每一层计算由其中一个缓存a读入特征图的像素数据,将结果存入缓存b,下一层由缓存b读入特征图像素数据,再将结果存入缓存a,二者交替读写。
3.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块将二维卷积拆分为多个行方向上的一维卷积,并将行方向上一维卷积的计算结果存入到计算引擎模块的部分和缓存中。
4.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块中每个计算单元都配有一个本地权重缓存,计算单元进行计算时从本地的缓存中读入权重数据。
5.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块的计算单元阵列采用动态可重配置架构,根据计算层的输入通道与输出通道数来配置计算单元阵列。
6.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述控制配置模块配置每个计算模块的计算模式,根据不同参数实现标准卷积层,深度可分离卷积层,全连接层多种计算模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010628683.0/1.html,转载请声明来源钻瓜专利网。