[发明专利]在多处理单元中使用片上存储器的数据处理无效
申请号: | 201180035394.9 | 申请日: | 2011-07-19 |
公开(公告)号: | CN103003838A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 维妮特·戈埃尔;托德·马丁;芒热斯·尼娅舒 | 申请(专利权)人: | 超威半导体公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20 |
代理公司: | 上海胜康律师事务所 31263 | 代理人: | 李献忠 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 单元 使用 存储器 数据处理 | ||
技术领域
本发明涉及提升处理器的数据处理性能。
背景技术
包括多处理单元的处理器通常应用在具有较大数量的数据元素的并行处理过程中。例如,包括多个单指令多数据(SIMD:single instruction multiple data)处理单元的图形处理器(GPU:graphic processor)能够并行地处理大量的图形数据。在大多数情况下,数据元素由一系列单独的线程来处理直到获得了最终输出。例如,在一个图形处理器中,包括顶点着色器、几何着色器以及像素着色器的不同类型的线程序列可以按顺序在数据元素组上进行操作直到用于渲染显示的最终输出已经准备好。
在不同阶段采用多个单独类型的线程进行数据元素的处理激活了流水线处理,并因此有利于提升数据的输出处理量。处理数据元素组的每一个单独的线程序列从共享的存储器中获得其输入并将其输出写入到共享存储器中,在该共享存储器中刚写入的数据可以由随后的线程进行读取。通常来说,在共享存储器中的存储器访问操作会消耗大量的时钟周期。当同步线程的数量增加时,基于存储器访问的延迟也相应地增加。在具有多个单独处理单元来并行地执行多个线程的传统处理器中,存储器访问延迟已经使得处理器的整个处理速度都显著地下降。
因此,需要这样的系统和方法,其通过减少由处理数据元素组的程序序列所进行的存储器访问而消耗的时间以提升具有多个处理单元的处理器的数据处理性能。
发明内容
本发明公开了一些在多个数据处理单元中采用片上(on-chip)本地存储器以提升处理器的数据处理性能的装置和方法。根据一个实施例,利用多个处理单元对处理器中的数据元素进行处理的方法包括:在每一个所述处理单元中运行(launching)具有第一类型线程的第一波阵面(wavefront),其后是具有第二类型线程的第二波阵面(wavefront),其中第一波阵面读取来自片外(off-chip)共享存储器的数据元素的部分以作为输入并生成第一输出;将第一输出写入到相应的处理单元的片上本地存储器中;并将由第二波阵面生成的第二输出写入到片上本地存储器中,其中到第二波阵面的输入包括来自第一输出的第一多个数据元素。
在另一个实施例中提供一个系统,包括:包括多个处理单元的处理器,每一个处理单元包括片上本地存储器;耦合到该处理单元并被配置为存储多个输入数据单元的片外共享存储器;波阵面调度模块;以及波阵面执行模块。该波阵面调度模块配置为:在每一个所述处理单元中运行(launching)具有第一类型线程的第一波阵面(wavefront),其后是具有第二类型线程的第二波阵面(wavefront),其中第一波阵面被配置为读取来自片外(off-chip)共享存储器的数据元素的一部分。将所述波阵面执行模块配置为将第一输出写入到相应的处理单元的片上本地存储器中;并将由第二波阵面生成的第二输出写入到片上本地存储器中,其中到第二波阵面的输入包括来自第一输出的第一多个数据元素。
然而另一个实施例是包括计算机可读媒介的有形计算机程序产品,该计算机可读媒介具有记录在其上的计算机程序逻辑,以便使得包括多个处理单元的处理器以:在每一个所述处理单元中运行(launching)具有第一类型线程的第一波阵面(wavefront),其后是具有第二类型线程的第二波阵面(wavefront),其中第一波阵面读取来自片外(off-chip)共享存储器的数据元素的一部分以作为输入并生成第一输出;将第一输出写入到相应的处理单元的片上本地存储器中;并将由第二波阵面生成的第二输出写入到片上本地存储器中,其中到第二波阵面的输入包括来自第一输出的第一多个数据元素。
下面参照附图详细说明本发明进一步的实施例、特征和优点,以及本发明各实施例的结构及操作。
附图说明
包含于说明书中并构成其部分的附图与上面的概括说明以及下面给出的实施例的详细说明一起阐释本发明的实施例,用于解释本发明的原理。在附图中:
图1显示了根据本发明的一个实施例的数据处理设备;
图2显示了根据本发明的一个实施例在具有多个处理单元的处理器中进行数据处理的示例性的方法;
图3显示了根据本发明的一个实施例,在具有多个处理单元的处理器上执行第一波阵面的示例性方法;
图4显示了根据本发明的一个实施例,在具有多个处理单元的处理器上执行第二波阵面的示例性方法;
图5显示了根据本发明的一个实施例,用于确定线程波阵面分配的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于超威半导体公司,未经超威半导体公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180035394.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制备安立生坦的方法
- 下一篇:表面安装的监视系统