[发明专利]具有用于机器学习加速器的宽乘加器树的浮点点积硬件在审

申请号：	202010221475.9	申请日：	2020-03-26
公开（公告）号：	CN112051982A	公开（公告）日：	2020-12-08
发明（设计）人：	希曼殊·考尔;马克·安德斯	申请（专利权）人：	英特尔公司
主分类号：	G06F7/544	分类号：	G06F7/544;G06F7/487;G06F7/483;G06N3/063
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	宗晓斌
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具有用于机器学习加速器宽乘加器树浮点硬件
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及具有用于机器学习加速器的宽乘加器树的浮点点积硬件。系统、设备和方法可以提供用于基于指数位的第一子集在多个浮点数之间进行第一对齐的技术。该技术还可以至少部分地与第一对齐并行地基于指数位的第二子集在多个浮点数之间进行第二对齐，其中，指数位的第一子集是LSB，并且指数位的第二子集是MSB。在一个示例中，技术使对齐的多个浮点数彼此相加。关于第二对齐，该技术还可以识别多个浮点数的各个指数，识别各个指数中的最大指数，并且进行从最大指数中减去各个指数的减法，其中该减法是从MSB到LSB进行的。

技术领域

实施例总体上涉及机器学习。更具体地，实施例涉及具有用于机器学习加速器的宽乘法-加法器树(wide multiply-adder tree)的浮点点积硬件。

背景技术

深度神经网络(DNN)通常用于机器学习(ML)工作负荷中以执行矩阵乘法和卷积运算，这往往是ML工作负荷中最限制功率和性能的运算。虽然已经提出了具有点积计算单元的硬件加速器以提高这些运算的面积(area)和能量效率(例如，使用各种数据流架构和数据类型)，但是仍有很大的改善空间。例如，传统的浮点(FP)点积硬件解决方案可以首先找到浮点积中的最大指数，并且使用最大指数和相应的单个指数使每个乘积尾数(例如有效位数、系数)对齐以进行累加/求和。全局搜索最大指数会引入延迟(例如，从而降低性能)。此外，对齐可能涉及相对大量的硬件(例如对齐移位器阶段)，这增加了延迟、成本和/或功耗。实际上，随着ML应用从标准数字格式(例如，具有5位指数的浮点16位/FP16)过渡到更优化的数字格式(例如，具有8位指数的脑浮点(Brain floating-point)16位/Bfloat16)，功率和性能限制可能增加。

发明内容

根据本公开的实施例，提供了一种计算系统，所述计算系统包括：网络控制器；以及耦合到所述网络控制器的处理器，所述处理器包括耦合到一个或多个衬底的逻辑，所述逻辑用于：基于指数位的第一子集在多个浮点数之间进行第一对齐；至少部分地与所述第一对齐并行地基于指数位的第二子集在所述多个浮点数之间进行第二对齐，其中所述指数位的第一子集是最低有效位(LSB)，并且所述指数位的第二子集是最高有效位(MSB)；并且使对齐的多个浮点数彼此相加。

根据本公开的实施例，提供了一种半导体设备，所述半导体设备包括：一个或多个衬底；以及耦合到所述一个或多个衬底的逻辑，其中所述逻辑至少部分地实现为可配置逻辑或固定功能硬件逻辑中的一个或多个，耦合到所述一个或多个衬底的所述逻辑用于：基于指数位的第一子集在多个浮点数之间进行第一对齐；至少部分地与所述第一对齐并行地基于指数位的第二子集在所述多个浮点数之间进行第二对齐，其中所述指数位的第一子集是最低有效位(LSB)，并且所述指数位的第二子集是最高有效位(MSB)；并且使对齐的多个浮点数彼此相加。

根据本公开的实施例，提供了一种计算系统，所述计算系统包括：网络控制器；以及耦合到所述网络控制器的处理器，所述处理器包括耦合到一个或多个衬底的逻辑，所述逻辑用于：识别多个浮点数的各个指数；识别所述各个指数中的最大指数；并且进行从所述最大指数中减去所述各个指数的减法，其中所述减法是从最高有效位(MSB)到最低有效位(LSB)进行的。

根据本公开的实施例，提供了一种半导体设备，所述半导体设备包括：一个或多个衬底；以及耦合到所述一个或多个衬底的逻辑，其中所述逻辑至少部分地实现为可配置逻辑或固定功能硬件逻辑中的一个或多个，耦合到所述一个或多个衬底的所述逻辑用于：识别多个浮点数的各个指数；识别所述各个指数中的最大指数；并且进行从所述最大指数中减去所述各个指数的减法，其中所述减法是从最高有效位(MSB)到最低有效位(LSB)进行的。

附图说明

本领域技术人员通过阅读以下说明书和所附权利要求并且参考以下附图将明白实施例的各种优点，在附图中：

图1是根据实施例的乘法器-加法器树硬件拓扑的示例的比较框图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于英特尔公司，未经英特尔公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010221475.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F7-00 通过待处理的数据的指令或内容进行运算的数据处理的方法或装置
G06F7-02 .比较数字值的
G06F7-06 .将单个记录载体上的数据进行排序、选择、合并或比较的装置
G06F7-22 .用于排序或合并在连续记录载体
G06F7-38 .只利用数制表示，例如利用二进制、三进制、十进制表示来完成计算的方法或装置
G06F7-58 .随机数或伪随机数发生器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]具有用于机器学习加速器的宽乘加器树的浮点点积硬件在审

专利文献下载