[发明专利]Hadoop异构集群中的数据分配策略有效

专利信息
申请号: 201310168386.2 申请日: 2013-05-09
公开(公告)号: CN103218233A 公开(公告)日: 2013-07-24
发明(设计)人: 郭文忠;陈国龙;林常航 申请(专利权)人: 福州大学
主分类号: G06F9/44 分类号: G06F9/44;G06F9/50
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: hadoop 集群 中的 数据 分配 策略
【说明书】:

技术领域

发明涉及高性能集群领域的数据分配策略,尤其是一种Hadoop异构集群中基于节点计算能力、网络传输能力和节点负载能力等多性能因素综合考虑的数据分配策略。

背景技术

Hadoop是一个能够对大量数据进行分布式处理的软件框架,其高可靠性、高扩展性、高效性和高容错性使其在商业和研究领域受到了广泛的关注。Hadoop包括两个相对独立的子系统:分布式并行计算系统MapReduce由JobTrackers和TaskTrackers组成;分布式存储系统HDFS存储Hadoop集群中所有存储节点上的文件。在执行MapReduce任务时需要获取HDFS上相应的数据块进行处理,而为了提高系统的可靠性和可用性,系统默认为每个数据块存放3个副本。当Hadoop的机架感知未启用时HDFS选择机器时是随机的,有可能在将第一个数据块副本写到机架1,第二个数据块副本写到机架2后,又将第三个数据块副本重新写回到机架1,此时,两个机架间产生两次数据流量。在Hadoop推送的数据量非常大的情况下会导致机架间的网络流量成倍增长,出现性能瓶颈,影响机架甚至整个集群的性能。当启用机架感知以后,HDFS在选择机器时会进行判断:在上传机器上写入第一个数据块副本,在上传机器所属的机架上随机选择一台机器写入第二个数据块副本,第三个数据块副本存放在另一个远端机架的任意一个机器上。这样的策略可以保证对该数据块所属文件的访问能够优先在本机架下找到,如果该机架发生了异常或者执行缓慢,也可以在另外的机架上找到该数据块的副本进行恢复或者数据迁移。该策略采用的随机选择节点的方法没有考虑节点异构导致的执行能力的差异,还可能由于远端机架的传输速度过慢导致增加数据的恢复或迁移时间,同时无法保证各节点间的负载平衡。

围绕上述问题,目前已经开展了许多研究工作,经对现有技术文档的检索发现,部分现有的策略是从执行能力方面考虑,这些策略通过对节点处理的数据块大小进行设置,以缩小性能差异的机器对同种任务的执行时间差;也有从保证系统负载平衡方面考虑的,这些策略能够在一定条件下提高系统的吞吐量。但这些策略未充分考虑异构集群中各节点的固有能力测差异,如线程切换能力、节点存储能力等,导致对于数据分配问题考虑不够全面,不能很好的保证网络的稳定性。其他的方法还有对网络传输方面的考虑,但是其网络距离采取的是拓扑结构中各节点到最近公共祖先的距离和进行估算,在实际应用的不同网络带宽中,该估算具有极大的局限性,参考价值不足。

发明内容

有鉴于此,本发明的目的是提供一种Hadoop异构集群中的数据分配策略。

本发明采用以下方案实现:一种Hadoop异构集群中的数据分配策略,其特征在于,包括以下步骤:

S01:测试并存储各节点处理不同规模数据的执行时间,并转换为静态性能参考指标;

S02:监控并存储各节点的存储负载和各节点间的网络传输速度,并转换为动态性能参考指标;

S03:根据预先设置的各性能因素的权重,利用计算模块计算出各节点应分配的数据块数目,并通过数据分配服务器进行数据块-节点的映射和实施分配传输。

在本发明一实施例中,所述步骤S01具体为:

S11:在每个节点上分别使用不同规模的数据块进行作业测试,并取其执行时间的加权平均值作为各节点的参考执行时间;

S12:利用参考执行时间与执行速率成反比的关系,计算出各节点的执行速率;

S13:分别计算各节点的执行速率占整个集群所有节点的执行速率之和的比例,作为静态性能参考指标。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310168386.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top