[发明专利]一种Hadoop集群的在线最小化总完工时间的调度方法和装置在审

申请号：	201410635768.6	申请日：	2014-11-11
公开（公告）号：	CN105653357A	公开（公告）日：	2016-06-08
发明（设计）人：	田文洪;李国忠;蒋亚秋;徐敏贤	申请（专利权）人：	田文洪;李国忠;蒋亚秋;徐敏贤
主分类号：	G06F9/48	分类号：	G06F9/48
代理公司：	暂无信息	代理人：	暂无信息
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 hadoop 集群在线最小化完工时间调度方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及在线集群调度技术领域，尤其涉及一种Hadoop集群在线系统的调度方法、调度装置。

背景技术

Hadoop是一个以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架。Hadoop集群(cluster)主要的任务部署分为客户端(Client)机器、主节点(Masternodes)和从节点(Slavenodes)3个部分，如图1所示。数据存储(Hadoop分布式文件系统，HadoopDistributedFileSystem，HDFS)和对运行在这个数据之上的并行计算(MapReduce)的监督是Hadoop的两个关键功能模块，这两个关键功能模块主要由主节点负责。HDFS采用主从(Master/Slave)结构模型，一个HDFS集群是由一个名字节点(NameNode)和若干个数据节点(DataNode)组成的。MapReduce框架是由一个单独运行在主节点上的作业追踪器(JobTracker)和运行在每个集群从节点上的任务追踪器(TaskTracker)共同组成。HDFS和MR共同组成Hadoop分布式系统体系结构的核心。

Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架，它以其通用、方便实用等特征在云计算和大数据处理时代得到了广泛应用。MapReduce是一种用于大规模数据集(大于1TB)的并行运算的编程模型。MapReduce工作过程包括两个阶段：Map阶段和Reduce阶段。Map阶段包含多个Map任务，Reduce阶段包含多个Reduce任务。在正式执行Map函数前，需要对输入数据进行分片，每个Map任务处理一个逻辑分片(split)。split包含了数据起始位置、数据长度、数据所在节点等元数据信息，其划分方法通常由用户自己决定。split的数量决定了Map任务的数量。

HDFS实现Hadoop体系结构中对分布式存储的底层支持存储。

NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode既是数据存储节点，也是计算节点，它负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。

JobTracker主要负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。JobTracker还负责跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器(TaskScheduler)，以便于调度器在资源出现空闲时将这些资源分配给合适的任务。TaskTracker主动周期性地调用心跳RPC函数，向JobTracker汇报节点和任务运行状态信息，同时领取JobTracker返回心跳包的各种命令并执行相应的操作。TaskTracker使用“slot”等量划分本节点上的资源量。slot是一个逻辑概念，是Hadoop的资源单位，一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小。slot分为Mapslot和Reduceslot两种，分别供MapTask和ReduceTask使用。每个作业申请资源以slot为单位，每个节点会确定自己的计算能力以及存储器，确定自己包含的slot总量。当某个作业要开始执行时，先向JobTracker申请slot，一个任务获取到一个slot后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给任务使用。

客户端机器包含Hadoop集群的所有设置，但它既不是主节点也不是从节点。客户端机器的作用是向集群保存数据，提交作业给MapReduce进行数据处理，获取查看任务的计算结果。

Hadoop集群系统中的核心技术是任务调度，在云计算研究中，MapReduce环境的在线作业调度带来了新的课题和挑战，引起了越来越多的重视。最初，Hadoop默认的FIFO(先入先出)调度器专为周期性执行大规模批量作业而设计。随着MapReduce集群系统的用户数量的增加，计算能力调度器和Hadoop公平调度器(HFS:HadoopFairScheduling)的出现，提供了更高效的集群共享方式，但是，现有的调度器还不能提供对最小化在线作业集完工时间的支持，当提交在线作业为一个作业集时，完工时间可能较长因而导致总能耗较高。

发明内容

本发明要解决的技术问题是：提供一种Hadoop集群在线系统的调度方法、调度装置，能够最小化在线作业集的总完工时间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于田文洪;李国忠;蒋亚秋;徐敏贤，未经田文洪;李国忠;蒋亚秋;徐敏贤许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410635768.6/2.html，转载请声明来源钻瓜专利网。

上一篇：应用进程管理方法及应用进程管理装置
下一篇：Hadoop的配置参数的计算方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Hadoop集群的在线最小化总完工时间的调度方法和装置在审

专利文献下载