[发明专利]一种HDFS运行时数据块平衡方法有效

专利信息
申请号: 201210393176.9 申请日: 2012-10-16
公开(公告)号: CN102937918A 公开(公告)日: 2013-02-20
发明(设计)人: 曹海军;伍卫国;董小社;樊源泉;魏伟;朱霍 申请(专利权)人: 西安交通大学
主分类号: G06F9/50 分类号: G06F9/50;G06F17/30
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 徐文权
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 hdfs 运行 数据 平衡 方法
【说明书】:

技术领域

发明属于计算机技术领域,涉及一种数据块平衡方法,尤其是一种云计算环境下HDFS(Hadoop Distributed File System)在运行过程中数据块平衡方法。

背景技术

Hadoop是由Apache开源组织开发的一个高可靠性和高可扩展性的存储与分布式并行计算平台,最早是作为开源搜索引擎项目Nutch的基础平台而开发的,之后从Nutch项目中独立出来,成为典型的开源云计算平台之一。Hadoop核心实现了按块存储的分布式文件系统(Hadoop Distributed File System,HDFS)以及用于分布式计算的MapReduce计算模型。HDFS为Hadoop集群提供由众多节点组成的存储系统,在存储大规模数据文件时,会将文件切分成多个相同大小的数据块(最后一份数据块例外),分布在集群中所有节点上。为了保证可靠性,HDFS会依据配置为每一份数据块创建多个副本,并放置在集群的不同节点上。HDFS为上层MapReduce计算引擎提供数据存储服务。Hadoop MapReduce将应用划分成许多小任务并行执行,每个小任务就对计算节点本地存储的数据块进行处理。

HDFS文件系统采用分块机制分布式存储数据集,并通过数据块冗余策略来提高系统可靠性,每个数据块在系统中都有多个副本同时存在,这些副本分布在系统中多个机架内的多个节点上,防止因单个节点出现故障造成数据块的丢失。此外,这种分布式冗余机制能保证文件的并发读取,使得HDFS更适合“一次写,多次读”的数据处理模式。为实现这种数据块冗余策略,HDFS文件系统在写入数据时必须保证有多个副本同时写入。

HDFS文件系统在写入数据流时需先通过NameNode获取多个节点构成节点管线,当数据流到达管线中的第一个节点时,该节点存储数据并发送给管线中的第二个节点。同样的,第二个节点存储数据并发送给管线中的第三个节点……以此类推,完成多份副本的写入。

HDFS文件系统在放置数据块及其副本时综合考虑以下几点:

1)当提交数据的节点也是HDFS文件系统中存储数据块的节点时,该节点上放置一份数据块的备份;

2)一个数据块的备份必须分布在多个机架上,避免单个机架故障导致整个数据不可用;

3)与提交数据节点处于同一个机架内的其他节点上也必须有数据块的备份,这样可以尽量减少机架间的通信和IO开销;

4)在满足前面条件的前提下兼顾考虑节点存储空间的使用率,尽可能保证各个节点存储使用率平衡。

Hadoop Map阶段是整个MapReduce作业执行的第一阶段,主要完成将外部输入数据转化为<Key,Value>形式的中间数据,提供给后续Reduce阶段作为输入数据。分布式并行处理环境下,Hadoop Map阶段使用分布式文件系统HDFS作为输入数据源,并在“移动计算比移动数据更经济”的指导原则下,将用户在提交作业时指定的Map处理过程分配到各个HDFS数据块存储节点上执行。当某个节点被分配的处理过程所需的输入数据刚好在该节点上存储时,称该处理过程满足数据本地性。

Hadoop MapReduce通过节点任务请求分配机制避免了多个数据块副本重复处理的问题。但从Hadoop Map阶段执行过程的分析可知,Map任务输入数据的本地性对Map任务的执行速率也会产生很大影响。当Map输入数据与Map任务执行在同一个节点上时将节省数据块网络传输开销,提高Map任务执行速率。在现有Hadoop体系结构中,HDFS数据块副本的分布状态通过Hadoop任务调度器直接影响Map任务输入数据的本地性。

因此,现有的HDFS数据块放置策略虽然能保证各个节点间的数据块数量大致平衡,但由于某些数据块副本的分布不合理,导致某些节点“窃取”其他节点的本地Map任务后,其他节点由于本地Map任务被分配同样需要“任务窃取”,这种“任务分配偏移”现象进一步加大了Map阶段非本地数据的传输量,给整个网络带来巨大的传输压力,影响整个阶段的运行效率。此外,当节点间数据块数目平衡时,节点任务处理速率不同也会导致出现较大程度的非本地化任务处理。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210393176.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top