[发明专利]一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器有效

申请号：	201710151826.1	申请日：	2017-03-10
公开（公告）号：	CN107633297B	公开（公告）日：	2021-04-06
发明（设计）人：	王中风;王稷琛;林军	申请（专利权）人：	南京风兴科技有限公司
主分类号：	G06N3/06	分类号：	G06N3/06;G06N3/063
代理公司：	北京弘权知识产权代理有限公司 11363	代理人：	逯长明;许伟群
地址：	210032 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于并行快速 fir 滤波器算法卷积神经网络硬件加速器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器。本加速器主要由计算逻辑和存储单元两大部分构成，计算逻辑主要包含多用处理器，快速卷积单元以及由快速卷积单元构成的卷积计算阵列；存储单元包括像素存储器，权值缓存，附加存储器和片外动态存储器。本加速器可以在三个层面并行处理卷积神经网络的计算，分别是行(列)并行，层内并行和层间并行。由于本加速器可以适用在多种并行度的场合，所以可以非常高效地处理卷积神经网络的计算，并且能够达到可观的数据吞吐率。

技术领域

本发明设计计算机及电子信息技术领域，特别涉及一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器。

背景技术

卷积神经网络(CNN)是当今最流行的深度学习算法之一。由于它在图像和声音识别等方面卓越的表现，现已在学术和工业界被广泛地应用。将基于卷积神经网络算法的识别系统应用在本地处理器上有着巨大的前景，也是未来发展的方向。然而由于深度卷积神经网络有着很高的计算复杂度，一般专用的图形处理器才能做快速的训练和识别，但是并不能减少计算复杂度。卷积神经网络主要由卷积层、池化层和全连接层构成一个前馈架构，每一层接受上一层的输出当作其输入，并且提供自己的输出结果给下一层。卷积层中的卷积操作承担了卷积神经网络的大部分计算并且在实际应用中占据着主要的功耗。池化层分为最大池化和平均池化两种，一般现在使用的都是最大池化。

并行快速有限冲击响应(FIR)算法(简称并行FFA)是算法强度缩减在并行FIR滤波器中的应用。强度缩减利用共享子结构达到了缩减硬件复杂度的效果。在一个VLSI实现或者一个可编程DSP实现的迭代周期中，用这种变换可以降低硅面积和功耗。基于并行快速有限脉冲响应(FIR)算法，本文设计了针对深度卷积神经网络的硬件加速器架构。基于并行快速FIR算法的快速卷积单元能够在根本上减小卷积的计算复杂度并且同时输出多个神经元。

发明内容

本发明旨在解决深度卷积神经网络计算复杂度高，并行度低等技术问题，或至少提出一种有用的商业选择。为此本发明的目的在于提出一种基于并行快速FIR滤波器算法的卷积神经网络硬件加速器，用来完成卷积神经网络中的高复杂度卷积运算，并且在三种层面上提高计算并行度，提高数据吞吐率。

从该计算模块的整体上来看，其包含了：

1.P(设卷积核大小为k×k)个多用处理器，用于接收输入像素神经元，完成位宽转换、卷积、加法树、线性修正、最大池化等操作，并把结果存入相应的存储单元。

2.像素存储器，用于存储部分输入图片及特征图片。

3.权值缓存，用于缓存部分卷积核的权值。

4.附加存储器，用于存储输入图片和特征图片卷积计算的中间结果。

5.片外动态存储器，用于存储全部的卷积核权值和要处理的整幅输入图片。

在基于并行快速FIR滤波器算法的卷积神经网络硬件加速器的一些实施例中，多用处理器包含了：

1.位宽转换器，用于将存储数据的位宽和计算数据的位宽进行转换，为了减小需要保存数据的存储器资源，存储数据和计算数据被设置成了不同的位宽大小。

2.T个卷积计算阵列，每个卷积计算阵列用于完成一幅图像的二维卷积。

3.加法压缩器，用于将多个卷积计算阵列的结果相加，功能类似于加法树，但比加法树高效的多。