[发明专利]一种算法与硬件协同优化的混合精度存内计算加速器在审
申请号: | 202011424498.6 | 申请日: | 2020-12-08 |
公开(公告)号: | CN114611680A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 杨永魁;陈瑞;王峥;陈超;喻之斌 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 范盈 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 算法 硬件 协同 优化 混合 精度 计算 加速器 | ||
本发明公开了一种算法与硬件协同优化的混合精度存内计算加速器,包括池化模块、累加模块、激活模块、全局缓冲模块及若干个分片模块。该加速器在神经网络准确度损失有限的范围内,大幅缩减存内计算加速器的硬件开销。并且,本发明利用神经网络各层输入激励的特点,在神经网络部署中,灵活调整神经网络各层的部署策略,使得存内计算加速器在芯片面积与运算能力之间达到最优化。
技术领域
本发明属于电子信息技术技术领域,涉及一种算法与硬件协同优化的混合精度存内计算加速器。
背景技术
近年来,神经网络凭借其在图像检测和目标分类中的优越性能,被广泛地研究和应用。当前主流的神经网络的连接点都数以亿计,是一种访存密集型和计算密集型的计算模式。庞大的神经网络模型导致它们很难被部署到硬件资源和能耗都受限的嵌入式系统中。
为了解决这些问题,在算法方面,目前最热门的技术就是对神经网络中的权重进行二值化处理,从而极大地减少神经网络加速器的数据搬移与计算。但二值化神经网络的推理准确度损失较大,系统稳定性有待考证。
在硬件方面,最近许多研究工作表明,避免不必要数据搬移的存内计算加速器是有望解决基于冯·诺依曼加速器中“存储墙”的问题。例如,相比于冯·诺依曼加速器,一种支持量化神经网络的基于DRAM的存内计算加速器架构DRISA,实现了8.8倍的速度提升和1.2倍的能效提升。也有人提出支持二值化神经网络的存内计算加速器,如NAND-Net,用于减少存内计算硬件开销。
现有的支持神经网络推理的存内计算可分为支持量化神经网络(如8位量化)的存内计算加速器和支持二值化神经网络的存内计算加速器。支持量化神经网络的存内计算加速器虽然可以达到与全精度相当的神经网络准确度,但其模型尺寸大。与此带来的不仅是所需的存储单元多,而且存内计算加速器中的外围电路(包括模数转换器、移位器、加法器、解码器、缓冲器等)的硬件成本也会成倍增加。与此同时,这些外围电路的面积、延迟和功耗通常占存内计算加速器的大部分。另一方面,支持二值化神经网络的存内计算加速器,如NAND-Net,虽然其硬件开销减少了,但牺牲了神经网络的准确度。因此,现有技术难以兼顾神经网络准确度高与存内计算加速器硬件开销小的技术难题。
发明内容
本发明的目的是提供一种算法与硬件协同优化的混合精度存内计算加速器,该加速器在神经网络准确度损失有限的范围内,大幅缩减存内计算加速器的硬件开销。
本发明所采用的技术方案是,一种算法与硬件协同优化的混合精度存内计算加速器,包括池化模块、累加模块、激活模块、全局缓冲模块及若干个分片模块。
本发明的特点还在于:
分片模块中包括处理单元PE。
处理单元PE包括若干个突触阵列、PE缓冲器、累加器及输出缓冲器。
突触阵列包括存储单元阵列、模数转换器ADC、位线译码器、字线译码器、模拟多路选择器、位移寄存器。
加速器用于支持混合精度神经网络,通过Caffe平台、Tensorflow平台、或者Pytorch平台对神经网络进行分层混合精度量化。
每层神经网络按各自的量化精度,部署到分片模块中。
如果一个分片模块不足以部署某一层的权重,则使用多个相同的分片模块。
部署不同的神经网络层的分片模块,该分片模块的内部电路设计不一定相同。
部署同一层神经网络的分片模块,该分片模块的内部电路设计完全一致。
神经网络层的权重、激励用低位宽的权重代替了全精度位宽或者8位位宽。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011424498.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单向阀式管道
- 下一篇:基于EM算法的动态PET参数图像分部重建算法