[发明专利]用于具有可变精度输入操作数的融合乘-加操作的指令在审
申请号: | 201910148847.7 | 申请日: | 2019-02-28 |
公开(公告)号: | CN110321157A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | D·达斯;N·K·梅勒普迪;M·杜塔;A·库马;D·穆迪盖雷;A·孔杜 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 源向量 指令 取出 可变 电路 单指令多数据 输入操作数 解码电路 指令解码 融合 操作码 非对称 累加 处理器 适配 字段 | ||
1.一种用于执行非对称融合乘-加FMA指令的处理器,所述处理器包括:
取出电路,用于取出FMA指令,所述FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段;
解码电路,用于对取出的FMA指令解码;以及
单指令多数据SIMD执行电路,用于执行经解码的FMA指令以通过以下步骤来处理所述第二源向量的、与适配到SIMD通道宽度的数量一样多的元素:将每个元素乘以所述第一源向量的对应元素,并将所得到的乘积与所述目的地的先前内容累加;
其中,所述SIMD通道宽度是16位、32位和64位中的一种,所述第一宽度是4位和8位中的一种,并且所述第二宽度是1位、2位和4位中的一种。
2.如权利要求1所述的处理器,其中,所述SIMD执行电路并发地处理所述一样多数量的元素。
3.如权利要求1所述的处理器,其中,所述SIMD执行电路在单个时钟周期中处理所述一样多数量的元素。
4.如权利要求1-3中的任一项所述的处理器,其中,所述SIMD执行电路使用多个FMA硬件单元来处理最大数量的元素,所述多个FMA硬件单元被并联地或级联地布置。
5.如权利要求1-3中的任一项所述的处理器,其中,所述第一宽度和所述第二宽度由所述操作码指定。
6.如权利要求1-3中的任一项所述的处理器,其中,所述FMA指令进一步指定重复指示符,所述重复指示符是2、4和8中的一者,所指定的目的地包括向量,并且所述SIMD执行电路使用多个源向量来并发地重复所述执行达由所述重复指示符指定的次数,每一次都将结果累加到目的地向量的同一元素。
7.如权利要求1-3中的任一项所述的处理器,其中,所述SIMD执行电路进一步舍入所述所得到的乘积和所述目的地的所述先前内容的所述累加以适配到所述目的地的位数内,并且其中,所述处理器进一步包括软件能访问的控制寄存器以存储舍入控制,其中,所述SIMD执行电路根据所述舍入控制执行所述舍入,其中,所述舍入控制指定以下一者:就近舍入平局成偶、就近舍入平局远离零、向零舍入、向正无穷舍入、以及向负无穷舍入。
8.如权利要求1-3中的任一项所述的处理器,其中,所述SIMD执行电路进一步检查饱和,并且将所述所得到的乘积和所述目的地的所述先前内容的所述累加饱和到预定义的最大值,并且其中,所述处理器进一步包括软件能访问的状态寄存器,供由所述SIMD执行电路用来将饱和的发生报告给软件。
9.一种用于执行非对称融合乘-加FMA指令的系统,所述系统包括:
用于取出FMA指令的装置,所述FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段;
用于对取出的FMA指令解码的装置;以及
用于执行经解码的FMA指令以通过以下步骤来处理所述第二源向量的、与适配到SIMD通道宽度的数量一样多的元素的装置:将每个元素乘以所述第一源向量的对应元素,并将所得到的乘积与所述目的地的先前内容累加;以及
其中,所述SIMD通道宽度是16位、32位和64位中的一种,所述第一宽度是4位和8位中的一种,并且所述第二宽度是1位、2位和4位中的一种。
10.如权利要求9所述的系统,其中,所述用于执行的装置并发地处理所述一样多数量的元素。
11.如权利要求9-10中的任一项所述的系统,其中,所述FMA指令进一步指定重复指示符,所述重复指示符是2、4和8中的一者,所指定的目的地包括向量,并且所述用于执行的装置使用多个源向量来并发地重复所述执行达由所述重复指示符指定的次数,每一次都将结果累加到目的地向量的同一元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910148847.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:浏览器预置网站区域控制的方法
- 下一篇:用于处理高效多播操作的装置和方法