[发明专利]用于混合GPU/CPU数据处理的方法有效

专利信息
申请号: 201380046737.0 申请日: 2013-09-09
公开(公告)号: CN104903849B 公开(公告)日: 2017-11-28
发明(设计)人: 伊恩·莱恩;杰克·冲;金贞硕 申请(专利权)人: 卡内基·梅隆大学
主分类号: G06F9/38 分类号: G06F9/38;G06F9/46
代理公司: 北京金岳知识产权代理事务所(特殊普通合伙)11585 代理人: 王文生,王中
地址: 美国宾夕*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 混合 gpu cpu 数据处理 方法
【说明书】:

相关申请的交叉引用

本申请是一个PCT国际申请,其要求序列号为61/743,607、题目为Methods for Hybrid GPU/CPU Data Processing的于2012年9月7日提交的美国临时申请的权益,该美国临时申请的全部内容通过引用合并于本申请中。

技术领域

发明涉及数据处理的领域。更具体地,此发明涉及用来在并行处理器平台上执行大规模图形遍历的方法。

背景技术

近年来,对于计算机而言具有多核进程和许多核进程已经变得更加普遍,通过以并行方式横跨不同处理核执行复杂的计算任务显著地增加了可以执行这样的任务的速度。然而对于一些复杂的计算任务而言,这样的处理器受到它们存储器容量的限制。例如,许多核图形处理单元(GPU)具有2-8千兆字节(GB)的存储器的限制。对于包括许多数百万计的弧和模型的图形结构的这样的大规模图形遍历的计算可能在规模上处于GB的100s的量级或者更大量级的任务而言,此存储器呈现出极限。

因而,存在对通过有效地支持异类并行计算核有效地在并行处理器平台上执行大规模图形遍历的方法的需要。

需要这样的改进的方法的一个领域是大词汇连续语音识别(large vocabulary continuous speech recognition,LVCSR)领域。作为这样的需要的一个示例,话音用户接口作为用于下一代智能设备的核心技术正在不断发展。为了确保吸引用户体验,关键的是用在这些系统内的语音识别引擎是鲁棒的、快速的、具有低延迟并且在系统可能遇到的极其大的词汇上提供充足的覆盖性。为了获得高的识别准确性,用于诸如广播新闻手稿[1,2]或者话音搜索[3,4]之类的任务的现有技术水平的语音识别系统可以在大词汇(>1百万个词)、大声学模型(数百万的模型参数)以及极其大的语言模型(数十亿的n-gram个条目)的情况下执行识别。在可以把这些模型应用在离线语音识别任务中时,对于实时语音识别而言由于在解码期间需要大的计算成本的原因它们是不可实施的。

使用静态编制的加权有限状态转换机(Weighted Finite State Transducer,WFST)网络,其中,WFST表示隐马尔可夫模型(Hidden Markov Model,HMM),声学模型H、上下文模型C、发音词典L、和语言模型G被组成为一个单个网络,通常称为H级WFST,这使得它可以非常有效地执行语音识别[5]。然而,当使用大模型时这样的搜索网络的构成和优化变得不可行。

联机构成是用来在单个完全构成的WFST的情况下执行语音识别的一个实践选择。联机构成涉及顺序地应用两个或更多个子WFST的组,在解码期间按需要对它们进行构成。一个通常方案是在解码之前对HoCoL进行预构成,然后利用语法网络G对此进行联机构成。在存储器方面联机构成已经显示出是经济的,但是解码显著慢于静态编制WFST[6]。

用于有效WFST解码的一个可选方案是执行假设再评分[3]而不是在搜索期间进行构成。在此方案中,Viterbi搜索使用HoCoGuni来执行,而另一WFST网络Guni/tri仅仅用于对以联机方式从Viterbi搜索过程生成的假设进行再评分。由于此算法从搜索开始允许所有的知识源都是可用的,所以对于选择正确的路径和修剪假设这二者而言这是有效的。

现在在许多核的图形处理单元(GPU)的情况下,对于许多计算任务而言商品资源、混合GPU/CPU计算架构是一个实际的解决方案。对于每个计算子任务而言,通过支持最适合的架构比通过单独使用任一平台能够取得显著更高的吞吐量。现有工作[7,8]已经例证了对于语音识别而言使用GPU处理器的有效性,并且对于有限的词汇任务而言在吞吐量方面获得了显著的改进[7]。然而,当在识别期间以及还对于其它大规模图形遍历计算而言应用大声学和语言模型时,关于这些架构的有限的存储器成为一个显著瓶颈。对于这样的计算的最显著的挑战是处理在现代宽域语音识别系统中使用的极其大的语言模型[1,2,4]。这些模型可能包含数百万的唯一词汇条目,数十亿的n-gram上下文,并且可能轻易地要求20GB或者更多以便存储在存储器中。即使当被显著地修剪时,这些模型也不能适于在GPU平台上可用的有限的存储器内。为了在大声学模型和语言模型的情况下高效地执行语音识别,我们已经开发了混合GPU/CPU架构,该架构在GPU架构的计算吞吐量的情况下支持大的存储器和CPU的局部高速缓冲。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卡内基·梅隆大学,未经卡内基·梅隆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380046737.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top