[实用新型]一种基于FPGA在视觉应用中的卷积神经网络加速器有效
申请号: | 201721140067.0 | 申请日: | 2017-09-07 |
公开(公告)号: | CN207458128U | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 高俊山;张孟逸 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06T1/60;G06N3/04;G06N3/063 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 *** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 本实用新型 加速器 应用 卷积 视觉 模式识别技术 提取图像特征 片外存储器 带宽消耗 后期处理 计算效率 结果保存 可重用性 内核数据 图像处理 硬件加速 运算资源 并行性 实时性 多层 功耗 异构 内存 架构 挖掘 访问 | ||
本实用新型提供了一种基于FPGA在视觉应用中的卷积神经网络加速器,涉及图像处理于模式识别技术领域。具体应用ZYNQ‑XC7Z020 soc平台,其具有ARM+FPGA异构架构,ARM处理器设置特定的参数通过AXI总线对FPGA进行控制,FPGA进行卷积操作与加速,利用多层卷积神经网络提取图像特征,之后将卷积操作之后的结果保存至内存中,再由ARM对数据进行后期处理。本实用新型提供了基于卷积神经网络的FPGA硬件加速方案,充分利xilinx ZYNQ器件中丰富的运算资源,挖掘卷积神经网络的并行性优势,利用可重用性的内核数据,限制不必要的访问片外存储器,减少带宽消耗,且在实时性和功耗方面都能满足实际应用的需求,从而提高卷积神经网络计算效率。
技术领域
本实用新型涉及图像处理与模式识别技术领域,具体涉及一种基于FPGA在视觉应用中的卷积神经网络加速器。
背景技术
随着集成电路设计和制造工艺的进步,具有大量高速可编程逻辑资源的现场可编程门阵列(Field Programmable Gate Array,FPGA)得到了快速发展,单个芯片的集成度越来越高。为了进一步提高FPGA性能,主流的芯片厂商在芯片内部集成了具有高速数字信号处理能力的数字信号处理(Digital Signal Processing,DSP)定制计算单元与大量的硬件乘累加(Multiply-add Accumulation,MAC)单元,能够高效、低功耗的实现定点运算,完成大量的卷积运算任务。使得FPGA在视频与图像处理、网络通信与信息安全、模式识别等应用领域被广泛采用。
卷积神经网络(Convolutional Neural Networks ,CNN)是一种源自人工神经网络的多层感知器,它对图像的处理与特征提取具有高度的适应性使之成为当前模式识别和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络结构,降低了网络模型的复杂度,减少了权值的数量。图像可以直接作为网络的底层输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征,避免了传统识别算法中复杂的特征提取和数据重建过程。
现有的大部分CNN实现主要是基于通用处理器CPU,图形处理器GPU或是专用集成电路(Application Specific Integrated Circuits,ASIC)实现的。CPU 为了满足通用性,芯片面积有很大一部分都用于复杂的控制流和Cache缓存,留给运算单元的面积并不多,所以无法充分地挖掘CNN内部的并行性;GPU 运行效率比 CPU 快很多,但是由于高昂的价格以及超大的功耗对于使其在实际应用中成本相对更高;ASIC虽是一个有效的方式实现卷积神经网络,但其设计周期长和制造成本高,而且体系结构是固定的,灵活性与拓展性较差。
发明内容
本实用新型的目的在于:克服现有技术的缺陷,针对视觉应用中图像处理功耗高,实时性与可拓展性较差的不足,提供一种基于FPGA在视觉应用中的卷积神经网络加速器,实现对图像数据的快速处理和对实时图像的高度识别。
本实用新型解决其技术问题所采用的技术方案是:本实用新型选择XilinxZynq-7000扩展式处理平台,具体采用ZYNQ-XC7Z020 SOC,它组合了一个双核ARM Cortex-A9处理器和一个传统FPGA逻辑部件,两者采用AXI工业标准的接口,从而在芯片的两个部分之间实现互联的异构架构。
ZYNQ中ARM Cortex-A9是一个应用级的处理器,位于处理系统端(Processingsystem,PS),而可编程逻辑端(Programmable Logic,PL)部分是基于Xilinx7系列的FPGA架构,此外还具有用于密集存储需要的块 RAM 和用于高速算术的 DSP48E1 片。
利用FPGA的并行计算能力在PL端的FPGA上设计乘法累加模块(Multiply andAccumulate operations,MAC )进行大量的卷积运算。MAC模块拥有一块较小的内存,存储与输入数据对应的卷积核数据,称之为“协存储器”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201721140067.0/2.html,转载请声明来源钻瓜专利网。