[发明专利]实行16位浮点矩阵点积指令的系统和方法在审
申请号: | 201910953678.4 | 申请日: | 2019-10-09 |
公开(公告)号: | CN111177647A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | A.F.海内克;R.瓦伦丁;M.J.查尼;R.萨德;M.阿德尔曼;Z.斯珀伯;A.格雷德斯坦;S.鲁巴诺维奇 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 周学斌;张金金 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实行 16 浮点 矩阵 指令 系统 方法 | ||
所公开的实施例涉及计算图块操作数中的半字节的点积。在一个示例中,处理器包括:解码电路,用以解码图块点积指令,该指令具有针对操作码的字段、用以标识M×N目的地矩阵的目的地标识符、用以标识M×K第一源矩阵的第一源标识符,以及用以标识K×N第二源矩阵的第二源标识符,每一个矩阵包含双字元素;以及执行电路,用以执行经解码的指令以对指定的目的地矩阵的每个元素(m,n)实行K倍流程,从而通过将指定的第一源矩阵的双字元素(M,K)的每个半字节乘以指定的第二源矩阵的双字元素(K,N)的对应半字节来生成八个乘积,并且将八个乘积与双字元素的先前内容进行累加和饱和。
技术领域
本发明的领域一般涉及计算机处理器架构,以及更具体地,涉及用于实行16位浮点矩阵点积指令的系统和方法。
背景技术
矩阵在许多计算任务中越来越重要,该计算任务诸如机器学习和其他批量数据处理。深度学习是一类机器学习算法。深度学习架构(诸如深度神经网络)已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。
推理和训练是被用于深度学习的两种工具,它们趋向于低精度算术。最大化深度学习算法和计算的吞吐量可以帮助满足深度学习处理器的需求,例如,在数据中心中实行深度学习的那些处理器。
矩阵-矩阵乘法(又名GEMM或通用矩阵乘法)是现代处理器上常见的计算繁重的运算。用于矩阵乘法(例如,GEMM)的特殊硬件是用于改善某些应用(诸如深度学习)的峰值计算(和能量效率)的好选项。
只要输出元素具有足够的位(即,多于输入),这些应用中的一些(包括深度学习)可以对具有相对较少位的输入数据元素进行操作而不会损失精确度。
附图说明
作为示例而非限制在附图的各图中图示了本发明,在附图中,相同的附图标记指示相似的元素,并且在附图中:
图1A图示了配置的图块的实施例;
图1B图示了配置的图块的实施例;
图2图示了矩阵存储的若干个示例;
图3图示了利用矩阵(图块)运算加速器的系统的实施例;
图4和5示出了如何使用矩阵运算加速器共享存储器的不同实施例;
图6图示了使用图块的矩阵乘法累加运算(“TMMA”)的实施例;
图7图示了链式融合乘法累加指令的迭代执行的子集的实施例;
图8图示了链式融合乘法累加指令的迭代执行的子集的实施例;
图9图示了链式融合乘法累加指令的迭代执行的子集的实施例;
图10图示了链式融合乘法累加指令的迭代执行的子集的实施例;
图11图示了根据实施例的两次幂大小的SIMD实现方式,其中累加器使用大于对乘法器的输入的输入大小;
图12图示了利用矩阵运算电路的系统的实施例;
图13图示了支持使用图块的矩阵运算的处理器核心流水线的实施例;
图14图示了支持使用图块的矩阵运算的处理器核心流水线的实施例;
图15图示了以行主要格式和列主要格式表达的矩阵的示例;
图16图示了矩阵(图块)的使用示例;
图17图示了矩阵(图块)的使用方法的实施例;
图18图示了根据实施例的对图块使用的配置的支持;
图19图示了要支持的矩阵(图块)的描述的实施例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910953678.4/2.html,转载请声明来源钻瓜专利网。