[发明专利]一种Hadoop集群的在线最小化总完工时间的调度方法和装置在审

专利信息
申请号: 201410635768.6 申请日: 2014-11-11
公开(公告)号: CN105653357A 公开(公告)日: 2016-06-08
发明(设计)人: 田文洪;李国忠;蒋亚秋;徐敏贤 申请(专利权)人: 田文洪;李国忠;蒋亚秋;徐敏贤
主分类号: G06F9/48 分类号: G06F9/48
代理公司: 暂无信息 代理人: 暂无信息
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 hadoop 集群 在线 最小化 完工 时间 调度 方法 装置
【说明书】:

技术领域

发明涉及在线集群调度技术领域,尤其涉及一种Hadoop集群在线系统的调度方法、调度装置。

背景技术

Hadoop是一个以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架。Hadoop集群(cluster)主要的任务部署分为客户端(Client)机器、主节点(Masternodes)和从节点(Slavenodes)3个部分,如图1所示。数据存储(Hadoop分布式文件系统,HadoopDistributedFileSystem,HDFS)和对运行在这个数据之上的并行计算(MapReduce)的监督是Hadoop的两个关键功能模块,这两个关键功能模块主要由主节点负责。HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个名字节点(NameNode)和若干个数据节点(DataNode)组成的。MapReduce框架是由一个单独运行在主节点上的作业追踪器(JobTracker)和运行在每个集群从节点上的任务追踪器(TaskTracker)共同组成。HDFS和MR共同组成Hadoop分布式系统体系结构的核心。

Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架,它以其通用、方便实用等特征在云计算和大数据处理时代得到了广泛应用。MapReduce是一种用于大规模数据集(大于1TB)的并行运算的编程模型。MapReduce工作过程包括两个阶段:Map阶段和Reduce阶段。Map阶段包含多个Map任务,Reduce阶段包含多个Reduce任务。在正式执行Map函数前,需要对输入数据进行分片,每个Map任务处理一个逻辑分片(split)。split包含了数据起始位置、数据长度、数据所在节点等元数据信息,其划分方法通常由用户自己决定。split的数量决定了Map任务的数量。

HDFS实现Hadoop体系结构中对分布式存储的底层支持存储。

NameNode执行文件系统的命名空间,如打开、关闭、重命名文件或目录等,也负责数据块到具体DataNode的映射。DataNode既是数据存储节点,也是计算节点,它负责处理文件系统客户端的文件读写,并在NameNode的统一调度下进行数据库的创建、删除和复制工作。

JobTracker主要负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。JobTracker还负责跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器(TaskScheduler),以便于调度器在资源出现空闲时将这些资源分配给合适的任务。TaskTracker主动周期性地调用心跳RPC函数,向JobTracker汇报节点和任务运行状态信息,同时领取JobTracker返回心跳包的各种命令并执行相应的操作。TaskTracker使用“slot”等量划分本节点上的资源量。slot是一个逻辑概念,是Hadoop的资源单位,一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小。slot分为Mapslot和Reduceslot两种,分别供MapTask和ReduceTask使用。每个作业申请资源以slot为单位,每个节点会确定自己的计算能力以及存储器,确定自己包含的slot总量。当某个作业要开始执行时,先向JobTracker申请slot,一个任务获取到一个slot后才有机会运行,而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给任务使用。

客户端机器包含Hadoop集群的所有设置,但它既不是主节点也不是从节点。客户端机器的作用是向集群保存数据,提交作业给MapReduce进行数据处理,获取查看任务的计算结果。

Hadoop集群系统中的核心技术是任务调度,在云计算研究中,MapReduce环境的在线作业调度带来了新的课题和挑战,引起了越来越多的重视。最初,Hadoop默认的FIFO(先入先出)调度器专为周期性执行大规模批量作业而设计。随着MapReduce集群系统的用户数量的增加,计算能力调度器和Hadoop公平调度器(HFS:HadoopFairScheduling)的出现,提供了更高效的集群共享方式,但是,现有的调度器还不能提供对最小化在线作业集完工时间的支持,当提交在线作业为一个作业集时,完工时间可能较长因而导致总能耗较高。

发明内容

本发明要解决的技术问题是:提供一种Hadoop集群在线系统的调度方法、调度装置,能够最小化在线作业集的总完工时间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于田文洪;李国忠;蒋亚秋;徐敏贤,未经田文洪;李国忠;蒋亚秋;徐敏贤许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410635768.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top