[发明专利]基于FPGA实现的卷积神经网络特征解码系统在审
申请号: | 202010665131.7 | 申请日: | 2020-07-10 |
公开(公告)号: | CN111860781A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 张子义;翁荣建;荣义然;杨付收 | 申请(专利权)人: | 逢亿科技(上海)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08;G06F15/78 |
代理公司: | 上海浙晟知识产权代理事务所(普通合伙) 31345 | 代理人: | 杨小双 |
地址: | 200051 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 fpga 实现 卷积 神经网络 特征 解码 系统 | ||
本发明涉及到计算机视觉技术领域,尤其涉及到一种基于FPGA实现的卷积神经网络特征解码系统。该系统将CNN网络的特征解码模块也放到FPGA内部进行加速,解决FPGA加速方案中遇到的特征提取和特征解码速率不匹配的问题,所有功能都在FPGA中实现,也就是说加速效果完全取决于FPGA的性能,只要将两个部分的功能实现完全的流水化设计,就能达到FPGA加速效果的最大化。同时因为特征提取的结果不需要再经过DDR缓存,直接在片内进行处理,也降低了CNN网络处理的时延,甚至可以完全脱离处理器实现CNN网络的加速,达到芯片级别的计算加速效果。
技术领域
本发明涉及到计算机视觉技术领域,尤其涉及到一种基于FPGA实现的卷积神经网络特征解码系统。
背景技术
当前卷积神经网络(CNN)已经被广泛运用于计算机视觉,工业检测,自然语言处理等多个领域。但受限于卷积神经网络的庞大计算量和存储要求,传统的通用处理器早已无法满足其实时性的要求,所以基于图形处理器(GPU),专用集成电路(ASIC)和现场可编程门阵列(FPGA)等硬件平台的CNN加速器纷纷被提出。综合比较这些硬件平台,基于FPGA的CNN加速器具有开发周期短,能效收益高,可重构性高等优点,越来越受到大家关注。
一个典型的CNN包含两个部分,特征提取部分和特征解码部分。特征提取部分用于产生图像不同特征的特征图,然后输出包含这些特征的低维向量给到特征解码部分。特征解码部分也可以理解为神经网络解码的过程,基于提取到的低维向量包含的特征信息,完成检测和分类等功能。CNN大部分的计算量都在于特征提取部分的卷积操作,如图1所示,现有的一些FPGA加速器方案都聚焦于加速特征提取部分,而特征解码部分还是要交由上位机或者ARM硬核去处理,所以在一些需要摆脱上位机的应用场景下,芯片选型时只能考虑系统级芯片(SoC),即FPGA+处理器结构。但是因为ARM架构是一个32位的精简指令集(RISV)处理器,所以往往会出现FPGA的计算资源很多,卷积部分加速快,而处理器对于CNN网络的特征解码能力有限的情况,以YoloV3网络为例,网络特征解码包括Sigmoid函数,非极大值抑制(NMS),指数(Exp)函数等,存在大量的浮点数计算,处理器的性能更是会成为网络加速的瓶颈,即FPGA的加速效果受到了处理器的限制,无法完全发挥FPGA的优势以达到最好的加速效果。
发明内容
鉴于上述技术问题,本发明提供了一种基于FPGA实现的卷积神经网络特征解码系统,该系统将CNN网络的特征解码模块也放到FPGA内部进行加速,解决FPGA加速方案中遇到的特征提取和特征解码速率不匹配的问题。将该特征解码模块放在特征提取的后面,因为整个网络不再分为两个部分,所有功能都在FPGA中实现,也就是说加速效果完全取决于FPGA的性能,只要将两个部分的功能实现完全的流水化设计,就能达到FPGA加速效果的最大化。同时因为特征提取的结果不需要再经过DDR缓存,直接在片内进行处理,也降低了CNN网络处理的时延,甚至可以完全脱离处理器实现CNN网络的加速,达到芯片级别的计算加速效果。
一种基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述系统包括有:
相互连接的DDR缓存模块和FPGA,所述FPGA中设置有特征提取模块和特征解码模块,所述特征提取模块与所述特征解码模块连接。
上述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述FPGA中设置有特征提取模块和特征解码模块,所述特征解码模块进一步包括有:函数变换模块、比较模块、非极大值抑制模块,所述函数变换模块、比较模块、非极大值抑制模块依次连接。
本发明技术方案中,上述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述函数变换模块中包括有Sigmoid函数、指数函数。
本发明技术方案中,上述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述比较模块包括有第一比较模块和第二比较模块,所述第一比较模块中设置有第一比较器,所述第二比较模块中设置有片上缓存BRAM和第二比较器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于逢亿科技(上海)有限公司,未经逢亿科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010665131.7/2.html,转载请声明来源钻瓜专利网。