[发明专利]稀疏矩阵乘法加速机制在审
申请号: | 202010591833.5 | 申请日: | 2020-06-24 |
公开(公告)号: | CN112446815A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | S·马伊尤兰;M·内文;J·帕拉;A·加尔各;S·马尔瓦哈;S·沙阿 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06F17/16;G06F5/06 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘文灿 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 稀疏 矩阵 乘法 加速 机制 | ||
一种用于促进加速矩阵乘法运算的装置。该装置包括脉动阵列,该脉动阵列包括:矩阵乘法硬件,其用于对包括来自多个输入矩阵的数据的接收到的矩阵数据执行乘加运算;以及稀疏矩阵加速硬件,其用于检测矩阵数据中的零值,并对矩阵数据执行一个或多个优化以减少要由矩阵乘法硬件执行的乘加运算。
技术领域
概括而言,实施例涉及数据处理,并且更具体而言,涉及经由通用图形处理单元的数据处理。
背景技术
深度学习算法当前正在各种机器学习应用中实现,例如音频/视频识别、视频摘要等。各种形式的神经网络(例如,卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆(LSTM)等)由于其高度并行的性质而被用于执行此类工作负载。机器学习应用通常实现矩阵乘法工作负载,该工作负载具有很大百分比的零(例如,稀疏矩阵)。由于这些运算的结果始终为零,因此必须对这些零执行乘法运算导致不必要的计算。
附图说明
为了可以详细地理解本实施例的上述特征的方式,可以通过参考实施例来对以上简要概述的实施例进行更具体的描述,其中的一些实施例在附图中示出。然而,应当注意,附图仅示出了典型的实施例,并且因此不应被认为是对其范围的限制。
图1是根据实施例的处理系统的框图;
图2A-2D示出了由本文描述的实施例提供的计算系统和图形处理器;
图3A-3C示出了由实施例提供的附加图形处理器和计算加速器架构的框图;
图4是根据一些实施例的图形处理器的图形处理引擎的框图;
图5A-5B示出了根据实施例的线程执行逻辑500,其包括在图形处理器核心中采用的处理元件的阵列;
图6示出了根据实施例的附加执行单元600;
图7是示出根据一些实施例的图形处理器指令格式的框图;
图8是根据另一实施例的图形处理器的框图;
图9A和9B示出了根据一些实施例的图形处理器命令格式和命令序列;
图10示出了根据一些实施例的用于数据处理系统的示例性图形软件架构;
图11A-11D示出了根据一个实施例的集成电路封装组装件;
图12是示出根据实施例的示例性片在系统集成电路的框图;
图13A和13B是示出了附加示例性图形处理器的框图;
图14示出了根据实施例的机器学习软件栈;
图15A-15B示出了示例性深度神经网络的各层;
图16示出了示例性递归神经网络;
图17示出了深度神经网络的训练和部署;
图18是示出分布式学习的框图;
图19示出了采用加速器的计算设备的一个实施例;
图20示出了矩阵乘法运算的一个实施例;
图21A-21C示出了脉动乘法器的实施例;
图22A和22B示出了乘法子运算的实施例;
图23示出了要优化的矩阵元素的一个实施例;
图24A-24C示出了优化后的矩阵元素的实施例;并且
图25是示出用于加速稀疏矩阵乘法的过程的一个实施例的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010591833.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:主动DI/DT电压下降抑制
- 下一篇:半导体封装件