[发明专利]一种卷积神经网络加速器实现架构有效
申请号: | 201911076768.6 | 申请日: | 2019-11-06 |
公开(公告)号: | CN111008697B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 毛宁;黄志洪;杨海钢 | 申请(专利权)人: | 北京中科胜芯科技有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 李晓 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 卷积 神经网络 加速器 实现 架构 | ||
本发明涉及一种卷积神经网络加速器实现架构,包括:用于存储权值数据的第一存储器、第二存储器、第三存储器和第四存储器;用于存储特征图数据的第六存储器、第八存储器和第十存储器,用于进行卷积运算的第五运算器、第七运算器、第九运算器和第十一运算器。本发明提供的卷积神经网络加速器实现架构;能够减少存储资源消耗;利用卷积神经网络内部输入特征图之间的并行性,输出特征图之间的并行性,实现并行度的灵活配置。
技术领域
本发明涉及一种卷积神经网络加速器实现架构,属于集成电路设计技术领域。
背景技术
近些年来,深度学习在图像识别等领域获得了快速的发展。而卷积神经网络作为深度学习领域中重要的算法之一,在图像识别,图像定位等领域占据了重要地位。由于卷积神经网络的计算量与存储量都非常大,因此通过通用计算平台CPU处理卷积神经网络存在着性能不足的缺点。与此同时,GPU在处理卷积神经网络中能获得高性能,但GPU存在着功耗大的缺点。而ASIC具有高能效比的优点,但是通用性不足。
卷积神经网络主要由卷积层,激活层,池化层,归一化层,全连接层等构成。卷积层是卷积神经网络的核心部分,在卷积层中,对于每一个输出特征图,会有不同的输入特征图和不同的卷积核卷积,所得到的结果会经过相加来得到一张输出特征图。激活层和池化层一般在卷积层后面,激活层对卷积得到的结果进行非线性化操作。池化层可以减少特征图的尺寸,通常的池化方法包括平均池化和最大池化。归一化层将一层的输出特征图做数据归一化。全连接层一般处于卷积神经网络中的最后几层,通常用作分类层,分类对象的数目就是全连接层的输出神经元数目。由此可见,卷积神经网络算法具有复杂性、数据量大和运算规模大的特点。
发明内容
本发明要解决技术问题是:克服上述技术的缺点,提供一种以PFGA作为计算平台,从而在功耗和性能之间取得较好平衡的卷积神经网络加速器实现架构。
为了解决上述技术问题,本发明提出的技术方案是: 一种卷积神经网络加速器实现架构,包括:用于存储权值数据的第一存储器、第二存储器、第三存储器和第四存储器;用于存储特征图数据的第六存储器、第八存储器和第十存储器,用于进行卷积运算的第五运算器、第七运算器、第九运算器和第十一运算器;所述第一存储器的输出连接所述第五运算器;所述第五运算器的输出连接所述第六存储器;所述第二存储器和第六存储器的输出连接所述第七运算器;所述第七运算器的输出连接所述第八存储器;所述第三存储器和第八存储器的输出连接所述第九运算器,所述第九运算器的输出连接所述第十存储器;所述第四存储器和所述第十存储器的输出连接所述第十一运算器;所述第一存储器、第五运算器和第六存储器构成第一层运算;所述第二存储器、第六存储器、第七运算器和第八存储器构成第二层运算;所述第三存储器、第八存储器、第九运算器和第十存储器构成第二层运算;所述第四存储器、第十存储器和第十一运算器构成第四层运算。
上述方案进一步的改进在于:所述第五运算器、第七运算器、第九运算器和第十一运算器由FPGA中的DSP构成。
上述方案进一步的改进在于:所述第一层运算、第二层运算、第三层运算和第四层运算中,奇数层运算开始同时进行计算,并在计算完成后停止计算,而后偶数层开始同时进行计算,并在计算完成后停止计算,之后奇数层再次开始同时进行计算;如此循环,形成奇数层与偶数层交替进行计算的循环。
上述方案进一步的改进在于:所述第一存储器、第二存储器、第三存储器、第四存储器、第六存储器、第八存储器和第十存储器由FPGA中的存储器构成。
本发明提供的卷积神经网络加速器实现架构,通过不同层之间的交替运算,可以减少存储器的资源消耗。在计算过程中将卷积层,激活层,池化层的所有操作全部进行完毕后再将运算结果进行存储,可以减小存储器的资源消耗。通过利用卷积神经网络内部输入特征图之间的并行性和输出特征图之间的并行性,可以为每层网络配置特定的不同的并行度,从而使计算资源得到充分利用,使得计算性能和吞吐量得到提高。通过将卷积神经网络中的偏置数据和权值数据放在一起,可以减小卷积之后的加偏置操作所占用的时间,提高计算速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科胜芯科技有限公司,未经北京中科胜芯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911076768.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种螺钉孔防滑牙结构及空调室外机
- 下一篇:隧道施工进出洞登记系统