[发明专利]具有用于混合浮点格式的点积累加指令的图形处理器和图形处理单元在审
申请号: | 202080014566.3 | 申请日: | 2020-03-14 |
公开(公告)号: | CN113454587A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | S·马伊尤兰;S·马尔瓦哈;A·加格;S·帕尔;J·帕拉;G·古拉姆;V·乔治;D·斯塔基;G-Y·鲁 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 用于 混合 浮点 格式 积累 指令 图形 处理器 处理 单元 | ||
1.一种图形多处理器,包括:
用于分派指令的指令单元;以及
与所述指令单元耦合的处理资源,所述处理资源被配置为接收来自所述指令单元的点积累加指令,并且使用bfloat16数字(BF16)格式处理所述点积累加指令。
2.根据权利要求1所述的图形多处理器,其中,所述点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘,同时累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。
3.根据权利要求1所述的图形多处理器,其中,所述累加器生成用于目的地的输出。
4.根据权利要求2所述的图形多处理器,其中,所述第一源操作数包括单精度浮点格式,而所述第二源操作数和所述第三源操作数包括BF16格式。
5.根据权利要求2所述的图形多处理器,其中,所述第一源操作数和所述目的地是半精度浮点格式、单精度浮点格式或BF16格式。
6.根据权利要求1所述的图形多处理器,其中,所述处理资源包括浮点单元(FPU),以使用所述BF16格式执行所述点积累加指令。
7.根据权利要求1所述的图形多处理器,其中,所述指令单元用于分派包括单指令多数据(SIMD)指令的指令。
8.一种通用图形处理单元(GPGPU)核心,包括:
用于单精度浮点运算的单精度浮点单元;以及
用于半精度浮点运算的半精度浮点单元,所述半精度浮点单元被配置为使用bfloat16(BF16)格式执行点积累加指令。
9.根据权利要求8所述的GPGPU核心,其中,所述点积累加指令使得第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘,同时累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。
10.根据权利要求9所述的GPGPU核心,其中,所述累加器生成用于目的地的输出。
11.根据权利要求9所述的GPGPU核心,其中,所述第一源操作数包括单精度浮点格式,而所述第二源操作数和所述第三源操作数包括BF16格式。
12.根据权利要求9所述的GPGPU核心,其中,所述第一源操作数和所述目的地是半精度浮点格式、单精度浮点格式或BF16格式。
13.根据权利要求8所述的GPGPU核心,其中,所述点积累加指令使得第一级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘,同时累加器将第一源操作数与来自所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加,以生成所述第一级的输出。
14.根据权利要求13所述的GPGPU核心,其中,用于具有N级乘法器和累加器的级联布置的所述点积累加指令使得第二级的第一BF16乘法器和第二BF16乘法器各自将第二源操作数与第三源操作数相乘,而累加器将来自所述第一级的输出与来自所述第二级的所述第一BF16乘法器和所述第二BF16乘法器中的每一个的输出相加。
15.一种并行处理单元,包括:
用于执行并行处理操作的第一处理集群;以及
与所述第一处理集群耦合的第二处理集群,其中,所述第一处理集群包括用于执行浮点运算的浮点单元,所述浮点单元被配置为使用bfloat16(BF16)格式处理点积累加指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080014566.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:使三相电流对称的方法
- 下一篇:用于机械接口的中间层