[发明专利]适用于深度学习硬件加速器的可配置激活函数装置及方法有效
申请号: | 201910344947.7 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110222815B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 沈沙;沈松剑;李毅 | 申请(专利权)人: | 上海酷芯微电子有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 200082 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 深度 学习 硬件 加速器 配置 激活 函数 装置 方法 | ||
本发明提供了一种适用于深度学习硬件加速器的可配置激活函数装置及方法,包括:第一运算单元:输入端连接有符号整型输入数据源获取有符号整型输入数据;多路选择器:两个输入端分别连接所述第一运算单元的输出端以及所述有符号整型输入数据源;第二运算单元:输入端连接所述多路选择器的输出端;修正线性单元:输入端连接所述第二运算单元的输出端;第三运算单元:输入端连接所述修正线性单元的输出端。本发明可支持多种激活函数运算的硬件加速单元,同时还可以支持批量归一化操作。输入输出数据为整数型数据,输入输出数据的最高精度可达32比特,而中间计算结果的精度最高可达64比特。
技术领域
本发明涉及电子电路技术领域,具体地,涉及适用于深度学习硬件加速器的64bit精度、可配置激活函数的硬件结构及实现方法。
背景技术
深度学习是机器学习中一个非常接近人工智能的领域,它的目的在于建立一个神经网络以模拟人脑的学习和分析的过程。深度学习的主要思想就是堆叠多个层,将低层的输出作为更高一层的输入,含多隐层的多层感知器就是一种深度学习结构的体现。通过这样的方式,深度学习能够通过组合低层特征来形成更为抽象的高层表示属性,从而发现数据的分布式特征表示。而如何使深度学习运算的精度更高是摆在不少工程师面前的难题。
CN109389212A公开了“一种面向低位宽卷积神经网络的可重构激活量化池化系统”,该发明面向低精度(小于、等于4bit精度)卷积网络,无法满足市场的高精度需求。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种适用于深度学习硬件加速器的可配置激活函数装置及方法。
根据本发明提供的一种适用于深度学习硬件加速器的可配置激活函数装置,包括:
第一运算单元:输入端连接有符号整型输入数据源获取有符号整型输入数据,并根据运算参数执行运算;
多路选择器:两个输入端分别连接所述第一运算单元的输出端以及所述有符号整型输入数据源,根据预定的要求选择一路输入传输至输出端;
第二运算单元:输入端连接所述多路选择器的输出端,并根据运算参数执行运算;
修正线性单元:输入端连接所述第二运算单元的输出端,对所述第二运算单元的运算结果进行修正线性操作;
第三运算单元:输入端连接所述修正线性单元的输出端,并根据运算参数执行运算。
优选地,所述第一运算单元、所述第二运算单元和所述第三运算单元均包括:
加法器:对输入的所述有符号整型输入数据和所述运算参数进行相加;
乘法器:输入端连接所述加法器的输出端,对输入的相加结果以及所述运算参数进行相乘;
算数移位器:输入端连接所述乘法器的输出端,对输入的相乘结果进行算数移位。
优选地,所述有符号整型输入数据源提供的有符号整型输入数据为32bit有符号整型输入数据。
优选地,所述运算参数包括:
偏置参数:传输至所述第一运算单元、所述第二运算单元和所述第三运算单元的所述加法器,位宽为32bit;
坡度和偏置参数:传输至所述第一运算单元、所述第二运算单元和所述第三运算单元的所述乘法器,位宽为64bit。
优选地,所述偏置参数存储于第一片上SRAM缓存,所述坡度和偏置参数存储于第二片上SRAM缓存。
根据本发明提供的一种适用于深度学习硬件加速器的可配置激活函数方法,提供上述的适用于深度学习硬件加速器的可配置激活函数装置,执行步骤包括:
步骤1:根据当前待计算的激活函数的类型,选择计算操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海酷芯微电子有限公司,未经上海酷芯微电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910344947.7/2.html,转载请声明来源钻瓜专利网。