[发明专利]一种基于可分割阵列的可重构加速器及其实现方法有效
申请号: | 201710524017.0 | 申请日: | 2017-06-30 |
公开(公告)号: | CN107341544B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 尹首一;唐士斌;欧阳鹏;涂锋斌;刘雷波;魏少军 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;贾磊 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分割 阵列 可重构 加速器 及其 实现 方法 | ||
技术领域
本发明是关于神经网络加速器技术,特别是关于一种基于可分割阵列的可重构加速器及其实现方法。
背景技术
在过去的十年中,深度学习(Deep Learning)技术促使人工智能技术飞速发展,基于深度学习的人工智能技术在图像识别、视频分析、语音识别与自然语义理解等领域取得了巨大的成功,在部分场景下甚至超越了人类智能。而基于深度学习的深度神经网络(Deep Neural Network)是实现智能任务的核心技术。现阶段,一项智能任务往往由多个深度神经网络组成,当前主流的深度神经网络主要包括:深度卷积网络(Deep Convolution Neural Network,CNN),深度全连接网络(Deep Full Connection Neural Network)及深度递归网络(Deep Recurrent Neural Network)。其中,卷积网络主要用于从二维信息中提取关键特征,主要包括了卷积层、池化层(Pooling Layer)等;全连接网络主要擅长处理分类任务,主要包括全连接层;递归神经网络一般用来处理与上下文有关的时序信息,主要由全连接层组成。当前著名的图像分类器AlexNet、ResNet、GoogleNet以及视频分析网络LRCN等,均是采用混合神经网络架构。更有研究(PathNet)表明,通用人工智能都可以通过混合神经网络来实现。
在混合神经网络中大量的计算集中在了卷积网络,因此学术界与工业界的工作主要集中在了针对卷积神经网络的加速。基于阵列结构的卷积神经网络加速器由于其高性能与高能效比的特点,在卷积神经网络加速器当中尤为瞩目。因为智能任务均采用混合神经网络架构,很多研究工作为了实现混合神经网络的加速,将CNN中的卷积计算与FCN中的全连接计算用统一的计算形式表示,这些工作复用卷积神经网络加速器加速CNN与FCN。同时,由于混合神经网络采用级联结构组织不同的神经网络,因此上述研究工作分时复用加速器顺序加速混合神经网络中的CNN与FCN。
然而,混合神经网络中的多种神经网络具有不同的特点(如数据重用度、稀疏化等),因此采用卷积加速器在时间上分别加速不同的神经网络会导致加速器资源的浪费(内存带宽与计算资源)。这种浪费主要表现在两个方面:
第一,数据重用度不同导致的资源浪费。数据重用度主要是指数据从内存传到加速器内部直至数据不再参与运算,这段时间内所参与的运算次数。在混合神经网络中,卷积网络是计算密集型的网络,一次数据传输可以参与几十次(甚至几百次)的卷积运算,因此卷积网络仅需要一部分内存带宽就可以满足所有计算资源对数据的需求,导致内存带宽的利用率低。相反,全连接网络与递归网络是访存密集型的,一次数据传输仅参与一次运算,因此这两种网络利用所有的内存带宽也仅能为一部分计算资源提供数据,导致计算资源的利用率低。
第二,稀疏化导致的资源浪费。全连接网络具有非常高的稀疏度,因此采用稀疏计算的方式加速全连接网络可以很好的提高性能与能效比,但是现有的卷积加速器不能兼容稀疏网络计算,导致计算资源与带宽资源的同时浪费。
发明内容
本发明实施例提供了一种基于可分割阵列的可重构加速器及其实现方法,以将两种神经网络的特点相互融合,提高芯片的计算资源与内存带宽利用率。
为了实现上述目的,本发明实施例提供了一种基于可分割阵列的可重构加速器,该可重构加速器包括:
便笺式存储器缓存区,用于实现卷积计算与稀疏化全连接计算的数据重用;
可分割计算阵列,包括多个可重构计算单元,所述可分割计算阵列分为被配置用于执行卷积计算的卷积计算阵列及用于执行稀疏化全连接计算的稀疏化全连接计算阵列;
寄存器缓存区,由多块寄存器构成的存储区域,为卷积计算与稀疏化全连接计算提供输入数据、权重数据及对应的输出结果;所述卷积计算的输入数据及权重数据分别输入到所述卷积计算阵列,以得到卷积计算结果;所述稀疏化全连接计算的输入数据及权重数据分别输入到所述稀疏化全连接计算阵列,以得到稀疏化全连接计算结果。
一实施例中,用于执行卷积计算的配置信息及稀疏化全连接计算的配置信息通过配置通路加载至对应的每个可重构计算单元。
一实施例中,所述可重构计算单元包括:多组配置寄存器、乘法器、加法器、第一存储区域、第二存储区域、第三存储区域、第四存储区域、第五存储区域及多个选择器;
配置寄存器用于存储执行卷积计算的配置信息或稀疏化全连接计算的配置信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710524017.0/2.html,转载请声明来源钻瓜专利网。