[发明专利]一种高能效的神经网络处理器、加速系统及方法有效
申请号: | 201811592475.9 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109615071B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 秦刚;姜凯;李朋 | 申请(专利权)人: | 山东浪潮科学研究院有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250000 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 能效 神经网络 处理器 加速 系统 方法 | ||
本发明公开了一种高能效的神经网络处理器、加速系统及方法,属于神经网络处理装置,要解决的技术问题为:如何减小对乘法器以及数据存储器的读写次数,加速神经网络的计算;其结构包为包含ARM核的主控芯片,包括处理器单元和逻辑计算单元,逻辑计算单元通过总线接口与处理器单元电连接。该系统包括上述主控芯片和存储模块。其方法包括:对权重数据进行选择排序;以数据复用的方式获取输入数据,根据多个PE计算子单元并行计算的方式对权重数据和输入数据进行卷积运算和池化运算;获取上述每个PE计算子单元的输出数据并进行加法运算得到最终数据,并将最终数据存储于存储模块。本发明可减少卷积次数以及对外部存储的读写次数。
技术领域
本发明涉及神经网络处理装置领域,具体地说是一种高能效的神经网络处理器、加速系统及方法。
背景技术
深度学习技术是人工智能技术发展的助推器,深度学习采用深度神经网络的拓扑结构进行训练、优化及推理。
卷积神经网络是深度学习的基础,在卷积运算在整个算法中计算量大,需要大量的乘法器单元,是影响性能的一个瓶颈。目前采用的方法是;并行地做乘法再做累加,形成若干乘法器的输出接入到一颗加法树的结构。现有的系统以及方法在并行地做乘法再做累加时,需要多次读取权重数据以及相关数据,对存储单元以及乘法器的损耗较大,且计算速度慢。
如何减小对乘法器以及数据存储器的读写次数,加速神经网络的计算,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种高能效的神经网络处理器、加速系统及方法,来解决如何减小对乘法器以及数据存储器的读写次数,加速神经网络的计算的问题。
第一方面,本发明实施例提供一种高能效的神经网络处理器,为包含ARM核的主控芯片,包括:
处理器单元,用于获取输入数据、权重数据并根据神经网络的模型生成指令数据;
逻辑计算单元,其通过总线接口与处理器单元电连接,包括指令FIFO子单元、数据FIFO子单元、排序子单元、加法子单元以及多个PE计算子单元,其中:
指令FIFO子单元,用于实现指令数据的FIFO,并根据指令数据激活适量个数的PE计算子单元以及PE计算子单元的资源;
数据FIFO子单元,用于实现权重数据和输入数据的FIFO;
排序子模块,用于基于为正数的权重数据优先输出、为负数的权重数据后输出、为零的权重数据不输出的原则,依序输出权重数据和输入数据;
PE计算子单元,用于对权重数据和输入数据进行卷积运算和池化运算,并用于判断是否自动终止卷积运算;
上述PE计算子单元共多个,其以数据复用的方式获取输入数据,并通过并行计算的方式对权重数据和输入数据进行卷积运算和池化运算;
加法子单元,用于对上述多个PE计算子单元输出的数据进行加法运算。
本实施方式中,对权重数据按照正数优先输出、负数后输出、零不输出的原则进行排序,在PE计算子单元进行卷积运算时,可减少卷积运算次数,对每个PE计算子单元的输入数据复用,可进一步减少从外部存储模块读写频次,从而降低了外部存储器的外部读写,也降低了内部卷积运算相关单元的使用资源。
优选的,PE计算子单元包括:
多个卷积计算微单元,用于以数据复用的方式获取输入数据,通过串行计算的方式对权重数据和输入数据进行卷积运算;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮科学研究院有限公司,未经山东浪潮科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811592475.9/2.html,转载请声明来源钻瓜专利网。