[发明专利]用于矩阵加速器架构的稀疏优化在审
申请号: | 202080004209.9 | 申请日: | 2020-03-14 |
公开(公告)号: | CN112534404A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | J·雷;S·贾纳斯;V·乔治;S·马余兰;A·考克;A·阿普;P·萨蒂;V·兰甘塔纳;V·安德烈;A·加格;Y·哈雷尔;小亚瑟·亨特;S·金;M·麦克弗森;E·乌尔德-阿迈德-瓦尔;W·萨德勒;L·斯特里拉马萨尔玛;V·维姆拉帕利 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/38 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 矩阵 加速器 架构 稀疏 优化 | ||
1.一种通用图形处理器,包括:
处理资源,所述处理资源包括矩阵加速器和解码器,所述矩阵加速器包括用于绕过对输入矩阵的稀疏子矩阵的加载的加载过滤器,并且所述解码器用于对与所述输入矩阵相关联的经编码的数据集合解码以生成经解码的数据集合,所述解码器用于基于与所述经编码的数据集合相关联的元数据对所述经编码的数据集合解码,其中,所述加载过滤器用于基于与所述经编码的数据集合相关联的所述元数据而绕过对所述稀疏子矩阵的所述加载。
2.如权利要求1所述的通用图形处理器,其中,所述解码器用于将与所述经编码的数据集合相关联的所述元数据提供给所述加载过滤器。
3.如权利要求2所述的通用图形处理器,其中,与所述经编码的数据集合相关联的所述元数据包括重要性图,所述重要性图用于指示所述经解码的数据集合的位流的零值或非零值。
4.如权利要求3所述的通用图形处理器,其中,所述解码器被包括在所述矩阵加速器中,并且所述矩阵加速器用于读取一个或多个经编码的子矩阵作为输入。
5.如权利要求1所述的通用图形处理器,其中,所述矩阵加速器包括多个处理元件。
6.如权利要求5所述的通用图形处理器,其中,所述多个处理元件被布置为脉动阵列并被配置成处理输入矩阵数据的集合的一个或多个子矩阵。
7.如权利要求6所述的通用图形处理器,其中,所述处理资源附加地包括用于为所述输入矩阵的被绕过的子矩阵执行操作的硬件逻辑单元。
8.一种方法,包括:
在包括矩阵加速器的通用图形处理单元上:
经由零检测电路跟踪要被输入到矩阵加速器的矩阵的零值操作数;以及
响应于检测到零值操作数而绕过所述矩阵加速器上的矩阵乘法操作,所述零值操作数与输入矩阵的第一子矩阵相关联,其中,所述第一子矩阵是零值子矩阵。
9.如权利要求8所述的方法,其中,所述输入矩阵是零值矩阵,并且对于所述零值矩阵,所述矩阵加速器上的所有矩阵乘法操作都被绕过。
10.如权利要求8所述的方法,附加地包括:
响应于检测到所述输入矩阵的第二子矩阵而绕过所述矩阵加速器上的矩阵乘法操作,所述第二子矩阵具有有限数量的非零值;以及
将消息发送到所述矩阵加速器外部的处理资源,所述消息用于指示对所述第二子矩阵的绕过。
11.如权利要求10所述的方法,附加地包括:基于所述消息,经由所述处理资源为所述第二子矩阵执行被绕过的操作。
12.如权利要求11所述的方法,其中,所述消息标识所述被绕过的操作以及用于所述被绕过的操作的操作数。
13.如权利要求8所述的方法,其中,经由所述零检测电路跟踪要被输入到矩阵加速器的矩阵的零值操作数包括:为第一输入矩阵生成子矩阵图,所述子矩阵图用于为所述第一输入矩阵标识零值子矩阵。
14.一种数据处理系统,包括:
存储器设备;以及
图形处理器,与所述存储器设备耦合,所述图形处理器包括:
处理资源,所述处理资源包括矩阵加速器和解码器,所述矩阵加速器包括用于绕过对输入矩阵的稀疏子矩阵的加载的加载过滤器,并且所述解码器用于对与所述输入矩阵相关联的经编码的数据集合解码以生成经解码的数据集合,所述解码器用于基于与所述经编码的数据集合相关联的元数据对所述经编码的数据集合解码;以及
其中,所述加载过滤器用于基于与所述经编码的数据集合相关联的所述元数据而绕过对所述稀疏子矩阵的所述加载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080004209.9/1.html,转载请声明来源钻瓜专利网。