[发明专利]用于利用零跳过的向量乘加的指令和逻辑在审
申请号: | 202011001145.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN113094096A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | S·帕尔;S·阿万察;I·巴蒂;W-Y·陈;D·达斯;A·加吉;C·S·古拉姆;J·顾;路奎元;S·马余兰;J·E·帕拉;S·斯里尼瓦桑;V·乔治 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F17/16 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;何焜 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 利用 跳过 向量 指令 逻辑 | ||
本申请公开了用于利用零跳过的向量乘加的指令和逻辑。本文中描述的实施例提供用于实现利用对于稀疏输入的自动零跳过的向量乘加指令的指令和相关联的逻辑。一个实施例提供一种通用图形处理器,包括逻辑,用于执行操作,这些操作包括:取出硬件宏指令,该硬件宏指令具有断言掩码、重复计数和一组初始操作数,其中初始操作数包括目的地操作数和多个源操作数。硬件宏指令配置为对与一组矩阵相关联的输入数据执行一个或多个乘法/加法操作。
背景技术
矩阵乘法是在高性能计算(HPC)和机器学习(ML)工作负荷中执行的最常见的操作之一。矩阵乘法操作通常在处理器功能单元中使用融合乘加指令的变型来执行。由于在这些工作负荷中使用的矩阵经常是稀疏的,因此提供给指令的乘数和/或被乘数可能是零,从而导致对零值的累加。因此,可以绕过此类操作而不影响最终结果。
附图说明
因此,为了可详细地理解上文陈述的当前实施例的特征的方式,可参照实施例进行对上文简要概述的实施例的更特定的描述,在所附附图中图示实施例中的一些。然而,应注意的是,所附附图仅图示典型实施例,并且因此不应视为限制实施例的范围。
图1是根据实施例的处理系统的框图;
图2A-图2D图示由本文中描述的实施例提供的计算系统和图形处理器;
图3A-图3C图示由本文中描述的实施例提供的附加的图形处理器和计算加速器架构的框图;
图4是根据一些实施例的图形处理器的图形处理引擎410的框图;
图5A-图5B图示根据本文中描述的实施例的线程执行逻辑,该线程执行逻辑包括在图形处理器核中采用的处理元件的阵列;
图6图示根据实施例的附加的执行单元;
图7是图示根据一些实施例的图形处理器指令格式的框图;
图8是根据另一实施例的图形处理器的框图;
图9A-图9B图示根据一些实施例的图形处理器命令格式和命令序列;
图10图示根据一些实施例的用于数据处理系统的示例性图形软件架构;
图11A是图示根据实施例的IP核开发系统的框图;
图11B图示根据本文中描述的一些实施例的集成电路封装组件的截面侧视图;
图11C图示封装组件,该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片;
图11D图示根据实施例的包括可互换小芯片的封装组件;
图12-图13B图示根据本文中描述的各实施例的可以使用一个或多个IP核制造的示例性集成电路和相关联的图形处理器;
图14图示根据实施例的机器学习软件栈;
图15A-图15B图示示例性深度神经网络的层;
图16图示示例性递归神经网络;
图17图示深度神经网络的训练和部署;
图18是图示分布式学习的框图;
图19是根据实施例的数据处理系统的框图;
图20图示对源和目的地矩阵的通用矩阵乘法操作;
图21A-图21C图示用于实现利用对于稀疏输入的零跳过的乘加向量操作的指令和相关联的硬件逻辑;
图22图示根据实施例的对于稀疏输入的指令扩展和跳过;
图23图示根据实施例的用于促进乘法/加法/向量指令的执行的方法;以及
图24是根据实施例的包括图形处理器的计算设备的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011001145.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:虚拟GPU中的可信本地存储器管理
- 下一篇:一种演播系统