[发明专利]一种面向FPGA的深度卷积神经网络加速器及设计方法有效
申请号: | 202110705247.3 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113487012B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 雷鹏;梁家伟 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/063;G06N3/082;G06N20/00 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 fpga 深度 卷积 神经网络 加速器 设计 方法 | ||
本发明提供一种面向FPGA的深度卷积神经网络加速器及设计方法,它采用模型压缩、参数量化、结构优化等相关技术,实现软硬件协同设计,压缩卷积神经网络规模,实现复杂卷积神经网络在FPGA平台上的部署与实时处理。其对卷积层进行滤波器剪枝,一方面能够减少网络模型的参数量,减小网络模型对存储资源和计算资源的需求,甚至消除对FPGA片外存储芯片的访问;另一方面可以通过量化进一步压缩模型,并使其更加硬件友好;同时还能通过合理的并行结构提升FPGA片上资源利用效率,从而进一步提升FPGA计算DCNN模型的速度,最终达到加速效果。
技术领域
本发明为一种面向FPGA的深度卷积神经网络加速器及设计方法,它采用模型压缩、参数量化、结构优化等相关技术,实现软硬件协同设计,压缩卷积神经网络规模,实现复杂卷积神经网络在FPGA平台上的部署与实时处理,属于人工智能与电子信息交叉领域。
背景技术
近年来,深度学习在模式识别领域取得了惊人的成绩。作为深度学习领域的代表性算法之一的深度卷积神经网络(Deep Convolution Neural Network,DCNN)在计算机视觉领域,包括图像分类、目标检测、视频处理等任务中,都取得了非常出色的成绩,如2015年在ImageNet图像分类比赛中,ResNet网络取得第一名,并已经超过人眼的识别率。不仅如此,DCNN在自然语言处理、语音识别、文本分类等领域也都得到了广泛的应用。
当前,DCNN的部署多选用图形处理器(Graphics Processing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)等器件作为平台来承载算法。但是由于GPU等器件具有能耗高、体积大等缺点,人们在小型移动系统和可穿戴设备等嵌入式场景中难以对其进行应用,这也导致了当前能够使用DCNN作为解决方案的工业级产品多为大型设备,或者通过网络将数据上传到云端服务器端进行处理。因此现场可编程门阵列(FieldProgrammable Gate Array,FPGA)和专用集成电路(Application Specific IntegratedCircuit,ASIC)以其更低的能耗、更小的体积和更快的计算速度逐渐走进人们的视线,尤其是考虑到灵活性和可重构性,越来越多的关注点放在了基于FPGA的神经网络加速器上面。
FPGA由大量的逻辑门电路和查找表组成,通过程序控制小型查找表来实现内部逻辑门的控制,能够直接综合(Synthesized)、布线(placed-and-routed)得到可执行的逻辑电路。相比于GPU可以并行的对不同的数据执行相同的操作,FPGA还能够并行的执行不同的操作,这大大降低了FPGA处理多路并行任务的延迟,能够得到更快的计算速度。经过几十年的发展,FPGA的片上资源越来越丰富,并大量嵌入了诸如块状随机存取存储器(BlockRandom Access Memory,BRAM)、数字信号处理(Digital Signal Processing,DSP)单元、锁相环(Phase Locked Loop,PLL)等电路作为可调用的硬核。当前FPGA在信号处理、检索、矩阵运算等计算密集领域得到了广泛的应用,近年来在百度和微软等公司的数据中心也都得到了大规模部署,以提供庞大的算力和足够的灵活性。而相对于ASIC而言,FPGA虽然会占用更大的体积,速度也会略慢一筹,但由于设计灵活、造价低、开发周期短,获得了更多的关注。
但是随着科技的发展,现代先进的DCNN结构越来越复杂,参数越来越多,计算量也越来越大,随之出现的问题是片上存储资源不足和计算速度缓慢。例如VGG-16网络中有1.38亿个参数,在一个前向计算过程中需要进行309亿次浮点运算(FLOPs),ResNet、DenseNet等网络更是需要在计算过程中保存大量的特征映射,这样的网络难以在单片FPGA进行部署,都需要大量的外部存储资源。而由于外部存储访问带宽有限,网络模型的计算速度将会受到极大的限制,这给DCNN的FPGA加速部署带来了巨大困难。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110705247.3/2.html,转载请声明来源钻瓜专利网。