[发明专利]一种神经网络加速方法、装置、设备及存储介质在审
申请号: | 202110989298.3 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113688976A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 孙炜;祝叶华 | 申请(专利权)人: | 哲库科技(上海)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/063 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 吴薇薇;张颖玲 |
地址: | 200120 上海市浦东新区自由贸易试*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 加速 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种神经网络加速方法、装置、设备及存储介质,该方法包括:确定神经网络结构的第一卷积核;其中,第一卷积核中各个输入通道的非零权重数据的个数相同;将第一卷积核中各个输入通道的非零权重数据进行集中存储,得到神经网络结构的第二卷积核;利用第二卷积核与特征图像进行卷积操作,得到目标卷积结果。这样,由于本申请确定的第一卷积核仅需求各个输入通道的非零权重数据的个数相同,增加了算法剪枝的自由度,而且减小了剪枝所带来的效果损失;另外,对于非零权重数据采用集中存储策略,不仅可以提高硬件资源的利用率,而且在保证算法效果的同时,还可以提高算法实现的能效比,减小算法实现的延时。
技术领域
本申请涉及神经网络技术领域,尤其涉及一种神经网络加速方法、装置、设备及存储介质。
背景技术
近年来,深度学习(Deep Learning,DL)的崛起不断推动着人工智能的发展。而以卷积神经网络为代表的DL算法在计算机视觉、自动驾驶等领域中已被广泛应用于分类、识别、降噪、超分(Super-resolution)等任务,然而其复杂的结构严重限制了此类技术在功耗和资源受限的移动和嵌入式平台上的部署,因而在此之前需要对其进行一定的压缩。
在相关技术中,目前可以在算法层面实现剪枝操作,然后通过硬件架构在乘法器之前增加一个旁路模块来跳过零值的运算。然而,这种方式还需要在乘法器之前添加判断逻辑实时判断下一次运算的输入是否包含零值,如果输入数中存在零值,那么就直接把结果设置为0;这时候乘法器并没有参与实际运算,造成了资源的浪费。
发明内容
本申请提出一种神经网络加速方法、装置、设备及存储介质,可以提高硬件资源的利用率,而且在保证算法效果的同时,还可以提高算法实现的能效比,减小算法实现的延时。
为达到上述目的,本申请的技术方案是这样实现的:
第一方面,本申请实施例提供了一种神经网络加速方法,应用于电子设备,该方法包括:
确定神经网络结构的第一卷积核;其中,第一卷积核中各个输入通道的非零权重数据的个数相同;
将第一卷积核中各个输入通道的非零权重数据进行集中存储,得到神经网络结构的第二卷积核;
利用第二卷积核与特征图像进行卷积操作,得到目标卷积结果。
第二方面,本申请实施例提供了一种神经网络加速装置,应用于电子设备,该神经网络加速装置包括确定单元、存储单元和计算单元;其中,
确定单元,配置为确定神经网络结构的第一卷积核;其中,第一卷积核中各个输入通道的非零权重数据的个数相同;
存储单元,配置为将第一卷积核中各个输入通道的非零权重数据进行集中存储,得到神经网络结构的第二卷积核;
计算单元,配置为利用第二卷积核与特征图像进行卷积操作,得到目标卷积结果。
第三方面,本申请实施例提供了一种芯片,该芯片包括如第二方面所述的神经网络加速装置。
第四方面,本申请实施例提供了一种电子设备,该电子设备包括存储器和处理器;其中,
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行计算机程序时,执行如第一方面的方法。
第五方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,计算机程序被处理器执行时实现如第一方面的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哲库科技(上海)有限公司,未经哲库科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110989298.3/2.html,转载请声明来源钻瓜专利网。