[发明专利]用于机器集群的并行编程的架构有效
申请号: | 200910205412.8 | 申请日: | 2009-10-23 |
公开(公告)号: | CN101739281A | 公开(公告)日: | 2010-06-16 |
发明(设计)人: | 刘桓;D·奥尔班 | 申请(专利权)人: | 埃森哲环球服务有限公司 |
主分类号: | G06F9/45 | 分类号: | G06F9/45 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;李峥宇 |
地址: | 瑞士沙*** | 国省代码: | 瑞士;CH |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 机器 集群 并行 编程 架构 | ||
相关申请的交叉参考
本申请要求于2008年11月7日提交的美国专利申请序列号12/267,142的优先权,该申请是于2007年10月1日提交的美国专利申请序列号11/906,293的部分继续申请,通过参考而将二者在此并入。
技术领域
本公开涉及通过使用被设计用来实现详细的并行化计算规划的运算符软件库,来实现应用并行化的系统和方法。具体地,本公开涉及用来实现并行化应用的高效且成本节约的方式。
背景技术
目前,机构在任意给定时间需要处理的数据量与使用单CPU(单处理器)系统的机构可用的计算能力之间存在很大差异。如今,机构为了得到有价值的信息和商业洞察力而使用处理千兆字节甚至拍字节(petabyte)的数据。不幸地,很多应用通常在单处理器机器上顺序运行,并且为了产生可用的结果需要数个小时甚至需要数天的计算时间。机构必须处理的数据量与机构可用的单处理器的计算性能之间的差距持续加大。机构收集且处理的数据量呈指数增长。机构必须处理每年约125%的企业级数据库增长速率或者等于每10个月大小翻倍的企业级数据库增长速率。用于其他数据丰富产业的数据容量也持续呈指数增长。例如,天文学具有每12个月数据翻倍的速率,生物序列具有每9个月数据翻倍的速率,功能染色体具有每6个月数据翻倍的速率。
尽管存储容量持续以指数速率增长,但是单处理器的速度不再 呈指数增长。因此,尽管组织可能有能力持续增大数据存储容量,但是单处理器配置的计算性能却不能保持同步。组织需要寻求用来解决存储容量和单处理器性能相脱离趋势的技术方案。
为了处理大量数据,应用需要大量的计算能力和较高的I/O吞吐量。程序员面临的技术挑战在于寻求用于在多个CPU上划分计算处理并协调计算的高效方式,从而解决计算能力的需求和供给之间增大的差距。鉴于有限网络带宽可用性这一现实,程序员还面临这样的技术挑战,即,解决将大量数据递送到多个CPU以执行并行处理计算所需的大量带宽需求。仅仅将附加机器引入处理池(配置)并不会增大配置的整体网络带宽。尽管作为结果,本地磁盘I/O带宽会增大。网络拓扑可以表示为树,其具有代表网段的很多分支和代表处理器的叶子。因此,沿着任一网段的单个瓶颈可确定配置的整体网络容量和带宽。为了升级带宽,必须利用本地磁盘I/O带宽增长的高效使用。
与并行化计算操作相关联的特别技术挑战包括并行编程复杂度、充分的开发工具和测试工具、网络带宽伸缩性限制、存储容量和单处理器性能的相脱离趋势,和计算处理的高效划分和多处理器配置中的协调。
长久以来都需要以经济、高效方式实现并行计算方案以及高效缓解程序员开发复杂并行程序这一负担的系统和方法。
发明内容
GridBatch提供了一种基础架构框架,程序员可以用其来容易地将高级设计转换成并行化的计算实现。程序员分析应用中的计算并行化潜能、将计算分解成离散成分,并考虑实现最高性能的数据划分规划。GridBatch实现由程序员开发的详细的并行化计算规划,而不需要程序员创建用来完成计算执行的底层逻辑。GridBatch提供了“运算符”(用于数据集操作的原语)库,将其作为实现并行化的构建块。GridBatch隐藏了与GridBatch库中并行编程相关联的复杂性, 使得程序员仅需要知道为了正确实现并行化而如何应用这些运算符。
尽管GridBatch可以支持很多类型的应用,但是GridBatch对关注部署分析应用的程序员尤其提供了益处,这是因为分析应用的独特特征和分析应用使用的计算运算符。程序员通常编写分析应用以从大型数据集收集统计,诸如特定事件多频繁地发生。分析应用的计算需求通常涉及将来自于两个或更多不同数据集的数据相关联(例如,以SQL语句表达的表联接(join)所带来的计算要求)。
GridBatch利用数据定位技术来高效地管理磁盘I/O并高效地升级系统带宽要求。换言之,GridBatch将计算处理进行了划分,并在多个处理器上协调计算,使得处理器在本地数据上执行计算。GridBatch将传输至多个处理器以执行并行处理计算的数据量最小化。
GridBatch通过隐藏并行编程复杂性,利用本地化的数据最小化网络带宽要求,以及对计算处理的划分和在多处理器配置中的协调进行管理,解决了与并行计算操作相关联的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于埃森哲环球服务有限公司,未经埃森哲环球服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910205412.8/2.html,转载请声明来源钻瓜专利网。