[发明专利]BFLOAT16比较指令在审
申请号: | 202210908963.6 | 申请日: | 2022-07-29 |
公开(公告)号: | CN115729619A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | A·海内克;M·阿德尔曼;R·凡伦天;Z·斯波伯;A·格雷德斯廷;M·查尼;E·吉奥加纳斯;D·卡拉姆卡;C·休斯;C·安德森 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 任曼怡;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | bfloat16 比较 指令 | ||
本申请公开了BFLOAT16比较指令。描述了用于比较BF16数据元素的技术。示例性BF16指令包括用于以下各项的字段:操作码、第一紧缩数据源操作对象的位置的标识、以及第二紧缩数据源操作对象的位置的标识,其中,操作码用于指示出执行电路要进行:针对紧缩数据源操作对象的特定数据元素位置执行该位置处的数据元素的比较,以及基于该比较来更新标志寄存器。
背景技术
近年来,已经证明具有较低精度的乘法和较高精度的累加的融合乘加(fused-multiply-add,FMA)单元在机器学习/人工智能应用中是有用的,最显著的是在训练深度神经网络时是有用的,这是由于其极高的计算强度。相较于经典的IEEE-754 32比特(FP32)和64比特(FP64)算术,此种精度降低的算术在性质上可以与其缩短的宽度不成比例地加速。
附图说明
将参考附图来描述根据本公开的各实施例,其中:
图1图示不同的浮点表示格式。
图2图示用于确定两个源的对应数据元素位置的BF16数据元素之间的最大值的指令的示例性执行。
图3图示由处理器执行的、用于处理指令以确定两个源的对应数据元素位置的BF16数据元素之间的最大值的方法的实施例。
图4图示用于确定两个源的对应数据元素位置的BF16数据元素之间的最大值的指令的执行的更详细的实施例。
图5图示表示用于确定两个源的对应数据元素位置的BF16数据元素之间的最大值的指令的执行和格式的伪代码的示例性实施例。
图6图示用于确定两个源的对应数据元素位置的BF16数据元素之间的最小值的指令的示例性执行。
图7图示由处理器执行的、用于处理指令以确定两个源的对应数据元素位置的BF16数据元素之间的最小值的方法的实施例。
图8图示用于确定两个源的对应数据元素位置的BF16数据元素之间的最小值的指令的执行的更详细的实施例。
图9图示表示用于确定两个源的对应数据元素位置的BF16数据元素之间的最小值的指令的执行和格式的伪代码的示例性实施例。
图10图示用于根据比较运算符比较两个源的对应数据元素位置的BF16数据元素之间的值的指令的示例性执行。
图11提供根据一些实施例的比较运算符的示例。
图12图示由处理器执行的、用于处理指令以根据比较运算符比较两个源的对应数据元素位置的BF16数据元素之间的值的方法的实施例。
图13图示表示用于根据比较运算符比较两个源的对应数据元素位置的BF16数据元素之间的值的指令的执行和格式的伪代码的示例性实施例。
图14图示用于比较第一源操作对象和第二源操作对象的特定数据元素位置中的BF16值、并根据比较结果来设置零标志、奇偶性标志和进位标志的指令的示例性执行。
图15图示由处理器执行的、用于处理指令以比较第一源操作对象和第二源操作对象的特定数据元素位置中的BF16值并根据比较结果来设置零标志、奇偶性标志和进位标志的方法的实施例。
图16图示表示用于比较第一源操作对象和第二源操作对象的特定数据元素位置中的BF16值、并根据比较结果来设置零标志、奇偶性标志和进位标志的指令的执行和格式的伪代码的示例性实施例。
图17图示用于处理诸如上文所详述的BF16比较指令中的任一者之类的指令的硬件的实施例。如所图示,存储装置1703存储有待执行的至少一个BF16比较指令1701。
图18图示示例性系统的实施例。
图19图示可具有多于一个的核心、可具有集成存储器控制器、并且可具有集成图形器件的处理器的实施例的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210908963.6/2.html,转载请声明来源钻瓜专利网。