[发明专利]用于矩阵运算的加速器系统和方法在审
申请号: | 202010128074.9 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111752533A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | Z.斯珀伯;A.格拉德斯坦;S.鲁巴诺维奇;I.雅诺弗;G.伯格;E.哈达斯;S.卡鲁夫;R.施奈德;S.梅勒;J.雅鲁茨 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F7/78 | 分类号: | G06F7/78 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 吕传奇;陈岚 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 矩阵 运算 加速器 系统 方法 | ||
本公开涉及用于使用包括拼贴矩阵乘法单元(TMU)的加速器来对二维拼贴寄存器执行一个或多个运算的系统和方法。所述处理器电路包括用于将所述处理器电路通信地耦合到所述TMU的保留站(RS)电路。所述RS电路协调通过所述TMU所执行的运算。所述TMU中的TMU分派队列(TDQ)电路以所述运算被从所述RS电路接收的次序维护从所述RS电路接收的所述运算。由于每个运算的持续时间在通过所述TMU执行之前是未知的,所以所述RS电路维护在所述TDQ电路中镜像所述运算的影子分派队列(RS‑TDQ)电路。所述RS电路134与所述TMU之间的通信给所述RS电路提供成功地执行的运算的通知并且允许所述RS电路取消运算,其中所述运算与分支误预测和/或非回退推测地执行的指令相关联。
技术领域
本公开涉及加速器电路,具体地涉及与具有乱序执行能力的处理器核心电路相结合地使用的加速器电路。
背景技术
加速器通过从其他系统硬件(诸如中央处理单元(CPU)中的处理器电路)卸载重复或耗时的任务来改进系统性能。通常,处理器电路将转移输入数据到加速器电路或使输入数据转移到加速器电路,加速器电路将使用输入数据来执行一个或多个运算,诸如矩阵乘法或卷积运算,以生成输出数据,所述输出数据被传送到处理器电路或者存储在存储器电路中。现代CPU常常包括执行指令的推测执行和/或指令分支预测以改进系统速度、效率和响应性的处理器电路和指令集。加速器电路必须能够适应处理器电路速度和效率增强功能,诸如指令的推测执行、乱序(OOO)指令执行和指令分支预测。
附图说明
随着以下具体实施方式继续进行,并且在参考附图时,所要求保护的主题的各种实施例的特征和优点将变得显而易见,其中相似的标号标明相似的部分,并且在附图中:
图1是依照本文描述的至少一个实施例的说明性系统的框图,所述说明性系统包括通信地耦合到处理器电路的拼贴(tiled)矩阵乘法单元(TMU);
图2是依照本文描述的至少一个实施例的描绘TMU与处理器电路之间的命令和/或数据流的系统的框图;
图3是依照本文描述的至少一个实施例的包括TMU和处理器电路的说明性电子基于处理器的设备的示意图;
图4是依照本文描述的至少一个实施例的使用包括TMU的加速器来对二维拼贴寄存器执行一个或多个运算的说明性方法的高级流程图;
图5A和图5B是图示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图;
图6A、图6B、图6C和图6D是图示根据本发明的实施例的示例性具体向量友好指令格式的框图;
图7是根据本发明的一个实施例的寄存器架构的框图;
图8A是图示根据本发明的实施例的示例性顺序管线和示例性寄存器重命名乱序发出/执行管线两者的框图;
图8B是图示根据本发明的实施例的要包括在处理器中的顺序架构核心和示例性寄存器重命名乱序发出/执行架构核心两者的示例性实施例的框图;
图9A和图9B图示更具体示例性顺序核心架构的框图,该核心将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核心)中的一个;
图10是根据本发明的实施例的处理器的框图,所述处理器可以具有多于一个核心,可以具有集成存储器控制器,并且可以具有集成显卡;
图11、图12、图13和图14是示例性计算机架构的框图;以及
图15是根据本发明的实施例的对比用于将源指令集中的二进制指令转换为目标指令集中的二进制指令的软件指令转换器的使用的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010128074.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用隐藏内联元数据的存储器保护
- 下一篇:光声波测定装置