[发明专利]共享本地存储器读取合并和多播返回在审
申请号: | 202010222550.3 | 申请日: | 2020-03-26 |
公开(公告)号: | CN112130752A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | J.雷;S.梅于兰;V.乔治;V.K.彦谢利安 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06T1/20 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李啸;姜冰 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 共享 本地 存储器 读取 合并 返回 | ||
描述了一种通用图形处理器,其包括第一组计算单元、第二组计算单元以及与第一组计算单元和第二组计算单元耦合的存储器。存储器配置成将对存储器的地址块的第一读取请求与对存储器的该地址块的第二读取请求合并,以减少对与该地址块相关联的存储器库的存储器访问的数量。图形处理器还可包括存储器仲裁器,其可将合并的读取多播至与合并的读取相关联的计算单元。
背景技术
诸如矩阵乘法之类的高密集计算是许多机器学习和高性能计算工作负荷中的公共构建块。这些计算构建块通常在空间和时间上具有显著的数据重用。这种构建块的性能可能受到数据可以从存储器馈送到执行单元中的速率的限制。例如,当工作负荷被共享公共数据存储设备(例如共享L1高速缓存或共享本地存储器(SLM))的许多计算单元并行操作时,对给定数据块的多个读取请求可以在不同的时间点从各个计算单元到达公共数据存储设备。单独地服务这些请求导致来自存储阵列的多次数据访问以及到执行单元的多次数据返回,这导致资源使用的低效率以及功耗的增加。
通常,本地数据高速缓存可以通过为共享公共数据的多个计算单元提供本地存储设备来提供某种程度的数据接合。然而,数据高速缓存仅服务于防止从分级结构的下一级的多次获取的目的。数据高速缓存不避免多次数据读取和传输,并且为每个访问请求消耗资源和功率。
附图说明
因此,通过参考实施例(实施例中的一些在附图中示出)可具有能够详细理解本实施例的上述特征的方式、上面简要概述的实施例的更特定描述。然而,要注意,附图仅示出了典型实施例,并且因此不被视为对其范围的限制。
图1是根据实施例的处理系统的框图;
图2A-2D示出了由本文描述的实施例提供的计算系统和图形处理器;
图3A-3C示出了由本文描述的实施例提供的附加图形处理器和计算加速器架构的框图;
图4是根据一些实施例的图形处理器的图形处理引擎410的框图;
图5A-5B示出了根据本文描述的实施例的包括图形处理器核中所采用的处理元件阵列的线程执行逻辑;
图6示出了根据实施例的附加执行单元;
图7是根据一些实施例的示出了图形处理器指令格式的框图;
图8是根据另一个实施例的图形处理器的框图;
图9A-9B示出了根据一些实施例的图形处理器命令格式和命令序列;
图10示出了根据一些实施例的数据处理系统的示例性图形软件架构;
图11A是根据实施例的示出了IP核开发系统的框图;
图11B示出了根据本文描述的一些实施例的集成电路封装组件的截面侧视图;
图11C示出了封装组件,其包括连接至衬底的硬件逻辑小芯片(chiplet)的多个单元;
图11D示出了根据实施例的包括可互换小芯片的封装组件;
图12-13示出了根据本文描述的各种实施例的可以使用一个或多个IP核制造的示例性集成电路和关联图形处理器;
图14是根据实施例的包括一组计算单元和共享存储器的计算系统的框图;
图15A-15B示出了根据实施例的共享本地存储器记分板和操作管线(pipeline);
图16示出了根据实施例的将对共享存储器的读取请求进行合并的方法;
图17示出了根据实施例的具有SLM数据的多播支持的存储器仲裁器;
图18示出了根据实施例的将合并读取请求的读取返回数据多播给共享存储器的方法;以及
图19是根据实施例的包括图形处理器的计算设备的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010222550.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工控主机的合规评分方法、装置
- 下一篇:促进基于硬件的表查找的技术