[发明专利]神经网络加速器、卷积运算实现方法、装置及存储介质在审
申请号: | 201910907750.X | 申请日: | 2019-09-24 |
公开(公告)号: | CN112633484A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 余金清;闫盛男;汪立林;张鹤 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06F17/15 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 薛祥辉 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 加速器 卷积 运算 实现 方法 装置 存储 介质 | ||
本发明实施例提供一种神经网络加速器、卷积运算实现方法、装置及存储介质,先获取原始卷积核对应的多个压缩子卷积核以及权重索引,然后从待处理的原始数据中读取规格与子卷积核规格相匹配的原始数据块,控制计算单元阵列根据原始数据块、压缩子卷积核以及权重索引执行迭代流程,其中,计算单元阵列中包括多个乘累加计算器;迭代流程结束后,获取计算单元阵列的输出结果。本发明实施例所提供的神经网络卷积运算实现方案通过对卷积核中的权重进行压缩,去除原始权卷积核中的零值权重,从而减少了卷积运算的运算量。同时,因为采用了阵列式的计算单元阵列对数据与权重进行卷积运算,能够提升卷积运算的数据复用度,减少神经网络处理过程中的带宽占用与功耗。
技术领域
本发明涉及人工智能领域,尤其涉及一种神经网络加速器、卷积运算实现方法、装置及存储介质。
背景技术
近些年来,人工智能技术在在全世界范围内得到了迅猛的发展,业界投入了大量的精力开展人工智能技术的研究工作,取得了显著的成果,特别是在图像检测和识别以及语言识别等方向上,人工智能的识别率已经超过了人类。神经网络处理是实现人工智能的重要处理技术,不过,神经网络规模的不断增长,导致典型的神经网络动辄几十层甚至上百层,神经元之间的连接数以亿记,即随着算法的性能指标不断提升,计算量不断的增加,完成推理需要的时间也需来越长。
因此,神经网络的硬件加速器或处理器如何降低处理时间,提高处理效能,是目前业界都在关注的重点技术问题。
发明内容
本发明实施例提供的神经网络加速器、卷积运算实现方法、装置及存储介质,主要解决的技术问题是如何降低神经网络硬件加速器或处理器的处理时间,提高处理效能。
为解决上述技术问题,本发明实施例提供一种神经网络卷积运算实现方法,包括:
获取原始卷积核对应的子卷积核、压缩子卷积核以及权重索引,子卷积核通过对原始卷积核进行切分处理得到,压缩子卷积核和权重索引通过去除子卷积核中的零值权重,对剩余权重值进行重排得到;
从待处理的原始数据中读取规格与子卷积核规格相匹配的原始数据块;
控制计算单元阵列根据原始数据块、压缩子卷积核以及权重索引执行迭代流程,计算单元阵列中包括多个乘累加计算器;
迭代流程结束后,获取计算单元阵列的输出结果。
本发明实施例还提供一种神经网络卷积运算实现装置,包括:
数据获取模块,用于获取原始卷积核对应的子卷积核、压缩子卷积核以及权重索引,子卷积核通过对原始卷积核进行切分处理得到,压缩子卷积核和权重索引通过去除子卷积核中的零值权重,对剩余权重值进行重排得到;
数据读取模块,用于从待处理的原始数据中读取规格与子卷积核规格相匹配的原始数据块;
迭代计算模块,用于控制计算单元阵列根据原始数据块、压缩子卷积核以及权重索引执行迭代流程,计算单元阵列中包括多个乘累加计算器;
结果获取模块,用于在迭代流程结束后,获取计算单元阵列的输出结果。
本发明实施例还提供一种神经网络加速器,包括处理器、存储器、计算单元阵列以及通信总线;
通信总线用于实现处理器和存储器之间的连接通信;
处理器用于执行存储器中存储的一个或者多个程序,以实现上述神经网络卷积运算实现方法的步骤。
本发明实施例还提供一种存储介质,该述存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述神经网络卷积运算实现方法的步骤。
本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910907750.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种统一播放控制系统的控制方法、系统、设备及介质
- 下一篇:穿刺杆及穿刺器