[发明专利]用于张量置换引擎的装置和方法在审
申请号: | 201910456393.X | 申请日: | 2019-05-29 |
公开(公告)号: | CN110659068A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | B·埃金 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/312 | 分类号: | G06F9/312;G06F9/315;G06F9/30;G06F9/345 |
代理公司: | 31100 上海专利商标事务所有限公司 | 代理人: | 何焜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据元素 寄存器 读取地址 区块 写入地址 写入 读取 移位寄存器 存储装置 生成单元 混洗 组接收 引擎 置换 自由 | ||
一种用于张量置换引擎的装置和方法。所述TPE可以包括读取地址生成单元(AGU)和写入AGU,所述读取地址生成单元用于生成第一存储装置中的多个张量数据元素的多个读取地址,所述写入AGU用于生成所述第一次存储装置中的所述多个张量数据元素的多个写入地址。所述TPE可以包括混洗寄存器区块,所述混洗寄存器区块包括用于从由所述读取AGU生成的所述多个读取地址读取张量数据元素的寄存器、用于接收所述张量数据元素的第一寄存器区块和用于从所述第一寄存器区块中的每个组接收最低张量数据元素的移位寄存器,所述移位寄存器中的每个张量数据元素被写入来自由所述写入AGU生成的所述多个写入地址的写入地址。
背景技术
技术领域
本发明的实施例总体上涉及计算机处理器领域。更具体地,实施例 涉及用于数据表示之间进行连贯的加速转换的装置和方法。
张量在机器学习工作负载中是常见的,用于在例如神经网络中的层 之间传递数据。当张量在层之间传递时,其可以被重新安排。例如,可以变换 或旋转四维或五维张量,使得新格式更好地匹配下一层。同样,在反向传播时, 在不首先旋转张量的情况下访问所述张量可能导致跨步访问,因为元素在不同 维度中被访问。
过去,可以使用各种向量指令来执行这种变换。然而,考虑到在使 用中的一些张量的大小,以及在任何给定指令中可以旋转的有限量的数据,这 可能导致大量的指令调用,从而导致显著的开销。另外,这种指令通常使用分 散/聚集方法来收集正在旋转的元素,导致大量的跨步数据访问,从而当数据在 高速缓存行和/或核之间移动时导致附加开销。
附图说明
可以结合以下附图从以下详细描述中获得对本发明的更好的理解, 在附图中:
图1A和图1B是框图,展示了根据本发明的实施例的通用向量友 好指令格式及其指令模板;
图2A至图2C是框图,展示了根据本发明的实施例的示例性VEX 指令格式;
图3是根据本发明的一个实施例的寄存器架构的框图;并且
图4A是框图,展示了根据本发明的实施例的示例性有序取出、解 码、引退流水线和示例性寄存器重命名、乱序发布/执行流水线两者;
图4B是框图,展示了根据本发明的实施例的有序取出、解码、引 退核的示例性实施例和有待包括在处理器中的示例性寄存器重命名、乱序发布 /执行架构核两者;
图5A是单个处理器核连同其与管芯上互联网络的连接的框图;
图5B展示了根据本发明的实施例的图5A中的处理器核的一部分 的展开图;
图6是根据本发明的实施例的具有集成存储器控制器和图形的单 核处理器和多核处理器的框图;
图7展示了根据本发明的一个实施例的系统的框图;
图8展示了根据本发明的实施例的第二系统的框图;
图9展示了根据本发明的实施例的第三系统的框图;
图10展示了根据本发明的实施例的芯片上系统(SoC)的框图;
图11展示了根据本发明的实施例的对照使用软件指令转换器来将 源指令集中的二进制指令转换为目标指令集中的二进制指令的框图;
图12展示了根据实施例的可以在其上实施实施例的处理器架构。
图13展示了根据实施例的地址生成单元;
图14示出了根据实施例的用于二维张量旋转的位混洗单元配置的 示例;
图15示出了根据实施例的生成写入计数器位置换的示例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910456393.X/2.html,转载请声明来源钻瓜专利网。