[发明专利]用于执行16位浮点向量点积指令的系统和方法在审
申请号: | 202110193619.9 | 申请日: | 2019-10-09 |
公开(公告)号: | CN112861073A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | A·F·海内克;R·凡伦天;M·J·查尼;R·萨德;M·阿德尔曼;Z·斯波伯;A·格雷德斯廷;S·卢巴诺维奇 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F9/30;G06F9/38 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;何焜 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 执行 16 浮点 向量 指令 系统 方法 | ||
所公开实施例涉及用于执行16位浮点向量点积指令的系统和方法。在一个示例中,处理器包括:取出电路,用于取出指令,该指令具有用于指定操作码以及第一源向量、第二源向量和目的地向量的位置的字段,该操作码用于指示执行电路用于将所指定的第一源和第二源的N对16位浮点格式化元素相乘,并且将所得的乘积与所指定的目的地的对应的单精度元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如该操作码所指定地对经解码的指令作出响应。
本发明专利申请是2019年10月9日提交的申请号为201910954609.5,名称为“用于执行16位浮点向量点积指令的系统和方法”的发明专利申请的分案申请。
技术领域
本发明的领域一般涉及计算机处理器架构,并且更具体地涉及用于执行16位浮点向量点积指令的系统和方法。
背景技术
指令集或指令集架构(ISA)是计算机架构中与编程有关的部分,并且可包括原生数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处置以及外部输入和输出(I/O)。指令集包括一种或多种指令格式。给定的指令格式定义各种字段(位的数目、位的位置)以指定将要被执行的操作以及将要对其执行那个操作的(多个)操作数,等等。给定的指令使用给定的指令格式来表达,并且指定操作和操作数。指令流是特定的指令序列,其中,该序列中的每条指令是指令按指令格式的出现。
科学、金融、自动向量化的通用、RMS(识别、挖掘以及合成)/可视和多媒体应用程序(例如,2D/3D图形、图像处理、视频压缩/解压缩、语音识别算法和音频操纵)常常需要对大量的数据项执行相同操作(被称为“数据并行性”)。单指令多数据(SIMD)是指使处理器对多个数据项执行同一操作的指令类型。SIMD技术尤其适用于可将寄存器中的多个位逻辑地划分成多个固定尺寸的数据元素(这些数据元素中的每个数据元素表示单独的值)的处理器。例如,512位寄存器中的位可以被指定为要作为十六个单独的32位单精度浮点数据元素被操作的源操作数。作为另一示例,256位寄存器中的位可以被指定为要作为十六个单独的16位浮点紧缩数据元素、八个单独的32位紧缩数据元素(双字尺寸数据元素)、或三十二个单独的8位数据元素(字节(B)尺寸数据元素)被操作的源操作数。该数据类型被称为紧缩数据类型或向量数据类型,并且该数据类型的操作数被称为紧缩数据操作数或向量操作数。换句话说,紧缩数据项或向量指的是紧缩数据元素的序列;并且紧缩数据操作数或向量操作数是SIMD指令(也称为紧缩数据指令或向量指令)的源操作数或目的地操作数。
作为示例,一种类型的SIMD指令指定了将以纵向方式对两个源向量操作数执行单个向量操作以生成具有相同尺寸的、具有相同数量的数据元素的以及按照相同数据元素的顺序的目的地向量操作数。源向量操作数中的数据元素被称为源数据元素,而目的地向量操作数中的数据元素被称为目的地数据元素或结果数据元素。这些源向量操作数具有相同的尺寸,并包含相同宽度的数据元素,并且因此它们包含相同数量的数据元素。两个源向量操作数中的相同的位的位置中的源数据元素形成数据元素对(也称为对应的数据元素;即,每个源操作数的数据元素位置0中的数据元素相对应,每个源操作数的数据元素位置1中的数据元素相对应,以此类推)。对这些源数据元素对中的每一对单独地执行由该SIMD指令所指定的操作,以生成匹配数量的结果数据元素,并且因此每一对源数据元素都具有对应的结果数据元素。由于操作是纵向的,并且由于结果向量操作数尺寸相同,具有相同数量的数据元素,并且结果数据元素以与源向量操作数相同的数据元素顺序来存储,因此,结果数据元素处于结果向量操作数的、与这些结果数据元素的对应源数据元素对在源向量操作数中的位的位置相同的位的位置处。除这种示例性类型的SIMD指令之外,还存在各种其他类型的SIMD指令。
包含16位浮点元素的向量的点积乘法在多个算法中是有用的,这些算法对16位源执行乘法并且将乘法结果与32位目的地向量元素累加。
附图说明
图1是图示根据实施例的用于执行VDPBF16PS指令的处理组件的框图;
图2是图示根据实施例的VDPBF16PS指令的执行的框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110193619.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三维存储器及其控制方法
- 下一篇:一种模块化客车侧围通用工装