[发明专利]一种基于CNN的可配置目标检测硬件加速优化方法在审
申请号: | 202210978820.2 | 申请日: | 2022-08-16 |
公开(公告)号: | CN115309364A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 胡建国;夏邦;林芸晓;马志华;张充;宋政 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F7/523 | 分类号: | G06F7/523;G06N3/04;G06F8/71 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cnn 配置 目标 检测 硬件加速 优化 方法 | ||
本发明公开了一种基于CNN的可配置目标检测硬件加速优化方法,方法包括:对目标网络模型的目标层数据进行前处理;接收并传输所述前处理后的目标网络模型的模型数据至目标缓存;将所述目标缓存中的所述模型数据进行编排处理,输出至DSP进行前项推理计算;根据所述前项推理计算后的模型数据存储到输出缓存;基于发送控制信号,将所述输出缓存的数据写到外部存储。本发明通过对目标缓存的数据基于DSP进行了可配置设计的编排处理,能够使模型数据适应硬件计算方式,进而提高DSP的计算效率,实现基于CNN的可配置目标检测硬件加速优化,可广泛应用于网络硬件优化技术领域。
技术领域
本发明涉及网络硬件优化技术领域,尤其是一种基于CNN的可配置目标检测硬件加速优化方法。
背景技术
在深度学习、人工智能发展下,目标检测应用场景越来越广泛,并且在精度和速度上都取得了良好效果。但是在发展过程中,目标检测模型数据量和计算量的增加使得云端技术不能很好地处理传统边端CPU进行目标检测的实时性要求。同时,随着应用场景逐步下沉,目标检测边端应用普及程度大大增加,这就对实时性和存储提出了更大挑战。而利用数据源中心的边端资源来部署基于深度学习的目标检测模型可以在延迟和能效上表现出较好效果,并逐渐成为一种理想解决方法。
基于CNN的目标检测模型推理过程中主要延时在于CNN的计算,因此需要硬件来对CNN进行加速运算,从而满足边端目标检测实时性和功耗需求。在边端对CNN进行加速目前主要有三种平台:图像处理单元(Graphics Processing Unit,GPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)和现场可编程门阵列(FieldProgrammable Gate Array,FPGA)。GPU加速在算力和适配性上表现优异,但是其在计算过程会出现高功耗问题,在一些生活化的边端场景就不那么适用。利用ASIC在边端对神经网络进行加速能获得较高性能和良好能效,但是开发时间大,难度较大,不利于迭代。而FPGA中的硬件计算资源DSP并没有很好地进行利用,导致DSP计算效率较低。
发明内容
有鉴于此,本发明实施例提供一种计算效率高的,一种基于CNN的可配置目标检测硬件加速优化方法。
第一方面,本发明实施例提供了一种基于CNN的可配置目标检测硬件加速优化方法,包括:
对目标网络模型的目标层数据进行前处理;
接收并传输所述前处理后的目标网络模型的模型数据至目标缓存;
将所述目标缓存中的所述模型数据进行编排处理,输出至DSP进行前项推理计算;
根据所述前项推理计算后的模型数据存储到输出缓存;
基于发送控制信号,将所述输出缓存的数据写到外部存储。
可选地,所述对目标网络模型的目标层数据进行前处理,包括:
在所述目标网络模型的卷积层和激活层插入Histogram Observer;
通过量化机制,对目标网络模型的卷积层数据和激活层数据进行量化处理。
可选地,所述接收并传输所述前处理后的目标网络模型的模型数据至目标缓存,包括:
采用AXI-Stream协议传输所述前处理后的目标网络模型的模型数据,将所述模型数据定义为AXI-Stream流数据;
通过Slave_AXIS_Interface模块接收所述AXI-Stream流数据;
根据所述Slave_AXIS_Interface模块的状态信号开始或结束所述AXI-Stream流数据的传输任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210978820.2/2.html,转载请声明来源钻瓜专利网。