[发明专利]任意神经网络的机器学习稀疏计算机制、用于训练机制的算术计算微架构以及稀疏性在审
申请号: | 201811528400.4 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109993683A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | E·努维塔蒂;A·布雷韦斯;D·马尔;E·王;S·德瓦拉卡普拉姆;S·加纳帕斯 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/04;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 张欣;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 操作数 处理电路 处理元件 机器学习 计算机制 神经网络 算术计算 图形数据 调度器 微架构 稀疏性 跳过 稀疏 读取 相乘 数据管理单元 图形处理单元 输入操作数 乘法单元 调度矩阵 稀疏矩阵 有效逻辑 有效输入 耦合到 跟踪 | ||
1.一种用于促进处理任意图形数据的稀疏矩阵的装置,包括:
图形处理单元,其包括:
数据管理单元(DMU),所述数据管理单元具有:用于调度矩阵操作的调度器;用于跟踪有效输入操作数的有效电路;以及用于跟踪要由所述调度器跳过的不重要输入操作数的跳过电路;以及
处理电路,被耦合到所述DMU,所述处理电路包括多个处理元件,所述处理元件包括用于读取操作数的电路和用于使所述任意图形数据的两个或更多个操作数相乘的乘法单元。
2.如权利要求1所述的装置,其特征在于,所述调度器用于在所述乘法单元处调度非零操作数。
3.如权利要求1所述的装置,其特征在于,进一步包括:
具有指针电路的存储器,所述指针电路用于存储输入向量和输出向量的基指针;以及
用于存储输入向量和输出向量的存储器。
4.如权利要求1所述的装置,其特征在于,每个处理元件包括:用于读取操作数的电路、用于提供指向矩阵的加权系数的存储器地址的列指针的指针电路、用于产生由列所述指针标识的加权系数值并将其发送到所述乘法单元的数据电路。
5.如权利要求4所述的装置,其特征在于,所述数据电路将所述输出向量的存储器地址或位置的标识符发送到所述输出缓冲器。
6.如权利要求1所述的装置,其特征在于,所述图形处理单元支持遍及任意不规则神经网络的任何层的任意连接。
7.一种用于促进处理任意神经网络的稀疏矩阵的硬件加速器,包括:
数据管理单元(DMU),所述数据管理单元具有用于调度矩阵操作的调度器和用于存储有效输入操作数的辅助缓冲器;以及
多个处理元件,其耦合到所述DMU,每个处理元件包括用于边缘数据和消息数据的输入缓冲器,以及用于支持所述任意神经网络的输入顶点程序的可定制电路。
8.如权利要求7所述的硬件加速器,其特征在于,用于支持输入顶点程序的所述可定制电路支持乘法、累加、激活和发送消息功能。
9.如权利要求8所述的硬件加速器,其特征在于,每个处理元件进一步包括芯片上存储器,用于经由所述DMU从芯片外存储器接收向量数据。
10.如权利要求9所述的硬件加速器,其特征在于,所述DMU用于基于所定制的函数从所述芯片上存储器获得更新的向量数据,并随后将所述更新的向量数据发送到所述芯片外存储器。
11.如权利要求7所述的硬件加速器,其特征在于,所述硬件加速器支持遍及所述任意不规则神经网络的任何层的任意连接。
12.一种图形处理单元,包括:
稀疏性管理单元,用于管理稀疏性操作;
块浮点(FP)管理单元3120,用于实现块FP操作;以及
可变和混合精度计算单元,用于支持可变和混合精度操作。
13.如权利要求12所述的图形处理单元,其特征在于,所述稀疏性管理单元包括:
值检查机制,所述值检查机制用于检测包括零操作数的不重要值,并跳过输入向量的这些不重要的值;以及
调度器,用于基于调度重要值并且跳过由所述值检查机制检测到的输入向量的不重要值,来确定计算的调度。
14.如权利要求12所述的图形处理单元,其特征在于,所述块FP管理单元包括选择电路,所述选择电路用于如果所述输入向量具有块FP并因此具有不同的指数,则为输入向量选择共享指数。
15.如权利要求14所述的图形处理单元,其特征在于,所述块FP管理单元包括对齐电路,用于使具有指数变化的所述输入向量的尾数对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811528400.4/1.html,转载请声明来源钻瓜专利网。