[发明专利]改进共享本地存储器和系统全局存储器之间的存储器访问性能的装置和方法有效
申请号: | 201480083250.4 | 申请日: | 2014-12-08 |
公开(公告)号: | CN107003934B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 杜江红;姜勇;沈磊;李源源 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F12/00 | 分类号: | G06F12/00;G06F13/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜;王英 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 共享 本地 存储器 系统 全局 之间 访问 性能 装置 方法 | ||
描述了一种具有存储在其上的指令的机器可读存储介质,所述指令当被执行时,使得处理器执行一种方法,该方法包括:将两个或更多个工作组进行分组以形成超级工作组;以及将存储器空间的部分划分为一个或多个超级共享本地存储器(超级SLM),其中超级工作组内共享的存储器空间形成所述一个或多个超级SLM中的至少一个超级SLM。描述了一种装置,包括:多个执行单元;高速缓存存储器,其具有表征为SLM的部分,所述SLM被与所述多个执行单元共享,所述多个执行单元中的至少一个执行单元要对子切片的工作组进行操作,其中所述SLM在所述工作组内共享;以及至少一个超级SLM,用于提供由子切片中的不同工作组可访问的共享存储器,其中所述执行单元中的至少一个要对不同的工作组进行操作。
背景技术
开放计算语言(OpenCL)是Khronos集团支持的框架(可访问www.khronos.org),用于编写跨包括图形处理单元(GPU)和其他处理器在内的异构平台执行的程序。在OpenCL和其他相关的异构计算框架中,共享本地存储器(SLM)是专用于执行单元(EU)作为本地存储器的3级高速缓存的一部分。SLM由一个工作组内的不同工作项目使用和共享。
然而,在某些情况下,存在与SLM和系统全局存储器(SGM)之间的存储器写到和读取相关的许多操作。例如,诸如生成直方图的操作具有大量的工作组。在这种情况下,将来自SLM的数据写到SGM花费很长时间。
附图说明
从下面给出的具体实施方式和本公开的各种实施例的附图将更充分地理解本公开的实施例,然而,不应将本公开限制于特定实施例,而是仅仅用于说明和理解。
图1示出了根据本公开的一些实施例的具有用于改进共享本地存储器(SLM)和系统全局存储器(SGM)之间的存储器访问性能的装置的数据处理系统的框图。
图2示出了根据本公开的一些实施例的具有一个或多个处理器核、集成存储器控制器和集成图形处理器以及具有改进SLM和SGM之间的存储器访问性能的装置的处理器的框图。
图3示出了根据本公开的一些实施例的图形处理器的框图,所述图形处理器可以是分立的图形处理单元,或者可以是与多个处理核集成的图形处理器。
图4示出了根据本公开的一些实施例的用于图形处理器的图形处理引擎(GPE)的框图。
图5示出了与执行单元相关的图形处理器的另一实施例的框图。
图6示出了包括在GPE的一些实施例中采用的处理元件的阵列的线程执行逻辑。
图7示出了根据本公开的一些实施例的图形处理器执行单元指令格式的框图。
图8是包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线的图形处理器的另一实施例的框图。
图9A示出了根据一些实施例的图形处理器命令格式的框图。
图9B示出了根据本公开的一些实施例的图形处理器命令序列的框图。
图10示出了根据本公开的一些实施例的用于数据处理系统的图形软件架构。
图11示出了传统OpenCL工作组和存储器结构的架构。
图12示出了根据本公开的一些实施例示出超级工作组、工作组和存储器结构的架构。
图13示出了根据本公开的一些实施例的示出了超级工作组如何将数据写回到系统全局存储器(SGM)的架构。
图14是根据本公开的一些实施例的用于改进共享本地存储器(SLM)和SGM之间的存储器访问性能的方法的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480083250.4/2.html,转载请声明来源钻瓜专利网。