[发明专利]用于脉动阵列上的块稀疏操作的架构在审
申请号: | 202080004288.3 | 申请日: | 2020-03-14 |
公开(公告)号: | CN112534405A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | A·阿普;S·马余兰;M·麦克弗森;付方文;J·陈;V·乔治;V·兰加纳坦;A·加格;J·雷 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/38 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;何焜 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 脉动 阵列 稀疏 操作 架构 | ||
1.一种图形处理器,包括:
取出和解码单元,所述取出和解码单元包括指令取出器和指令解码器,所述指令取出器用于取出硬件宏指令,所述指令解码器用于对所述硬件宏指令解码,其中所述硬件宏指令包括初始操作数的集合,并且对所述硬件宏指令解码包括生成包括多条点积指令的硬件指令的集合,所述多条点积指令用于对与第一矩阵和第二矩阵相关联的输入执行,所述输入至少部分地基于操作数的初始集合来标识;以及
矩阵加速器,所述矩阵加速器包括用于执行所述硬件指令的集合的处理资源。
2.如权利要求1所述的图形处理器,其中,所述硬件宏指令在所述硬件指令的集合的完成后被引退。
3.如权利要求1所述的图形处理器,其中,所述初始操作数的集合包括目的地操作数和多个源操作数。
4.如权利要求3所述的图形处理器,其中,所述硬件宏指令附加地包括断言掩码和重复计数,所述硬件指令的集合基于所述断言掩码和所述重复计数而生成。
5.如权利要求4所述的图形处理器,其中,所述重复计数用于指示对于所述硬件指令的集合要生成的硬件指令的最大数量。
6.如权利要求5所述的图形处理器,其中,所述多条点积指令中的每一条指令用于使所述处理资源对多个数据元素执行点积操作。
7.如权利要求6所述的图形处理器,其中,为了生成所述硬件指令的集合,所述指令解码器用于:
对于所述断言掩码内的活跃位,生成第一硬件指令;以及
对于所述断言掩码内的不活跃位,绕过对第二硬件指令的生成。
8.如权利要求7所述的图形处理器,其中,为了生成所述硬件指令的集合,所述指令解码器附加地用于:
生成用于所述第一硬件指令的操作数的第一集合,所述操作数的第一集合用于指示用于由所述第一硬件指令使用的目的地寄存器和多个源寄存器,其中所述操作数的第一集合基于所述初始操作数的集合和操作数偏移来生成。
9.如权利要求8所述的图形处理器,其中,所述断言掩码是第一断言掩码,对于活跃位生成所述第一硬件指令包括针对所述第一硬件指令生成第二断言掩码,并且所述第二断言掩码用于指示对于所述第一硬件指令要计算的一个或多个活跃通道。
10.如权利要求1所述的图形处理器,其中,所述处理资源是处理资源的脉动阵列内的处理资源。
11.如权利要求1所述的图形处理器,其中,所述多条点积指令包括四元素点积指令。
12.如权利要求1所述的图形处理器,其中,所述多条点积指令包括两元素点积指令。
13.一种方法,包括:
在包含矩阵加速器的图形处理单元上:
取出硬件宏指令,所述硬件宏指令具有断言掩码、重复计数、以及初始操作数的集合,其中所述硬件宏指令用于实现对与矩阵集合相关联的输入的点积操作的集合的生成;
将所述硬件宏指令解码为经解码的硬件宏指令;
基于所述经解码的硬件宏指令生成硬件指令的集合,所述硬件指令的集合包括多个点积操作的集合,所述硬件指令的集合基于所述断言掩码和所述重复计数而生成;以及
经由图形处理器的处理资源执行所述硬件指令的集合。
14.如权利要求13所述的方法,其中,所述图形处理器的所述处理资源是所述图形处理器内的矩阵加速器内的处理资源。
15.如权利要求14所述的方法,附加地包括:在所述硬件指令的集合的完成后,引退所述硬件宏指令。
16.如权利要求13所述的方法,其中,所述初始操作数的集合包括目的地操作数和多个源操作数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080004288.3/1.html,转载请声明来源钻瓜专利网。