[发明专利]用于执行混洗和操作的装置和方法有效
申请号: | 201380028378.6 | 申请日: | 2013-06-07 |
公开(公告)号: | CN104335166B | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | I·厄莫拉夫;O-A-V·艾尔莫斯塔法;B·托尔;J·考博尔;A·纳赖金 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 张东梅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 执行 操作 混洗 系统 装置 方法 | ||
技术领域
本发明的领域一般涉及计算机处理器架构,更具体地涉及在执行时导致特定结果的指令。
背景技术
高性能计算(HPC)中的常见操作是具有交叉迭代数据依赖性(复现)的循环的处理。例如,以下的部分循环是这种循环的一个示例。
For:
A[i]=A[i-2]*B[i]+C[i]
i+=1
不幸的是,至今为止,没有简化这些循环类型的指令。
附图说明
本发明是通过示例说明的,而不仅局限于各个附图的图示,在附图中,类似的参考标号表示类似的元件,其中:
图1a-d示出VSHP{OP}指令的示例性操作。
图2示出在处理器中使用VSHP{OP}指令的实施例。
图3示出用于处理VSHP{OP}指令的方法的实施例。
图4示出用于处理四数据元素数据通道横向部分和的横向部分和的示例性伪代码。
图5示出根据本发明的一个实施例的1有效位向量写掩码元素的数量同向量尺寸和数据元素尺寸之间的相关性。
图6A示出示例性AVX指令格式。
图6B示出来自图6A的哪些字段构成完整操作码字段和基础操作字段。
图6C示出来自图6A的哪些字段构成寄存器索引字段。
图7A-7B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。
图8A-8D是示出根据本发明的实施例的示例性专用向量友好指令格式的框图。
图9是根据本发明的一个实施例的寄存器架构的框图。
图10A是示出根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的无序发布/执行流水线的框图。
图10B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框图。
图11A-B示出了更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。
图12是根据本发明的实施例的可具有一个以上核、可具有集成存储器控制器、并且可具有集成图形的处理器的方框图。
图13是根据本发明的实施例的示例性计算机架构的框图。
图14是根据本发明的实施例的第一更具体的示例性系统的框图。
图15是根据本发明的实施例的第二更具体的示例性系统的框图。
图16是根据本发明的实施例的SoC的框图。
图17是根据本发明的实施例的对比使用软件指令变换器将源指令集中的二进制指令变换成目标指令集中的二进制指令的框图。
具体实施方式
在以下描述中,陈述了多个具体细节。然而,应当理解的是,可不通过这些具体细节来实施本发明的实施例。在其它实例中,未详细示出公知的电路、结构以及技术,以免模糊对本描述的理解。
说明书中对“一个实施例”、“实施例”、“示例实施例”等等的引用表示所描述的实施例可包括特定特征、结构或特性,但是,每一个实施例可以不一定包括该特定特征、结构,或特征。此外,这些短语不一定表示同一实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为本领域普通技术人员能够知晓结合其它实施例来实现这种特征、结构或特性,无论是否明确描述。
概览
指令集、或指令集架构(ISA)是涉及编程的计算机架构的一部分,并且可包括原生数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处理、以及外部输入和输出(I/O)。术语指令在本申请中一般表示宏指令,宏指令是被提供给处理器(或指令转换器,该指令转换器(利用静态二进制转换、包括动态编译的动态二进制转换)转换、变形、仿真或以其他方式将指令转换成将由处理器处理的一个或多个其他指令)以供执行的指令——作为对比,微指令或微操作(微操作)是处理器的解码器解码宏指令的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380028378.6/2.html,转载请声明来源钻瓜专利网。