[发明专利]基于量化标签的Yarn资源调度器在审
申请号: | 201511032371.9 | 申请日: | 2015-12-31 |
公开(公告)号: | CN105677467A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 杨洋;喻之斌;刘勇;曾永刚;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 量化 标签 yarn 资源 调度 | ||
技术领域
本发明涉及通信及大数据领域,尤其涉及一种基于量化标签的Yarn资源调 度器。
背景技术
随着大数据时代的到来,用于处理大量数据的分布式计算平台也应运而生, 解决各种各样的大数据问题。其中,Hadoop作为一种开源的分布式的批处理计 算框架而被最为广泛地使用,受到越来越多的关注。Hadoop最初是由Mapreduce 编程模型和分布式文件系统(HDFS)构成。Mapreduce以key-value的形式表示待 处理数据,在Map中,可以将一个大任务分成多个可并行的小任务执行,Reduce 过程将Map中key相同的value值进行归并。Mapreduce是一个抽象的编程模型, 多种类型的大数据分析任务都可以转化成Mapreduce来进行并行计算。
在Hadoop中,有一个管理进程负责总体的资源管理与作业调度,每个计算 节点也分别有用于作业执行的线程,计算节点的线程可以向管理进程汇报节点 的状况。管理节点也可以通过计算节点汇报的情况来分配新任务,进行一些容 错工作。Hadoop调度是一个可插拔的模块,使用者可以根据自己的需求进行 替换。Hadoop提供的调度模块有三种实现,分别是FIFO、CapacityScheduler(容 量调度器)、FairScheduler(公平调度器)。
FIFO调度器是一种最简单的调度方式,它先按照作业的优先级高低,再按 照到达时间的先后选择被执行的作业。Hadoop中只有一个作业队列,被提交的 作业按照先后顺序在作业队列中排队,新来的作业插入到队尾。一个作业运行 完后,总是从队首取下一个作业运行。这种调度策略的优点是简单、易于实现, 同时也减轻了管理进程的负担。但是它的缺点也是显然的,它对所有的作业都 一视同仁,没有考虑到作业的紧迫程度,另外对小作业的运行不利。Capacity Scheduler和FairScheduler比较类似,都是针对多任务队列的调度。FairScheduler 是以作业池为单位分配任务槽,而CapacityScheduler是以队列为单位分配资源 的。
随着集群规模的扩大,异构集群也越来越普遍。异构集群中的计算节点有 不同的计算能力。不同的计算能力的节点合适做不同类型的任务,如计算能力 强的节点可以查询等任务,可以加快查询的速度;计算能力较弱的节点适合做 长任务,如Storm等长期服务且重要级别比较低的任务。Hadoop为了适应异构 机群,推出了基于标签的调度,这种调度会为每个节点加上标签。每个任务队 列也拥有对应的标签,使得合适的任务调度到合适的节点执行。但是这种标签 的方式也过于粗放,无法将特定类型的任务分配到具有某特点的节点之上,造成 任务调度的不合理和资源利用率低的问题
发明内容
提供一种基于量化标签的Yarn资源调度器,其解决了现有技术的任务调度 的不合理和资源利用率低的问题。
一方面,提供一种基于量化标签的Yarn资源调度器,所述资源调度器包括:
节点配置模块,用于配制节点标签,所述节点标签可以包括:量化的用于 表示该节点资源大小的数组;
队列配置模块,用于配制队列标签,该队列标签可以包括:量化的用于表 示该队列任务所需资源大小的数组;
调度模块,用于依据该配制节点标签和队列标签将队列任务分配到节点中 执行。
可选的,所述调度模块,具体用于队列标签对任务队列中的任务进行判别, 确定任务的种类,其次查看对应的可用节点列表,将任务分配到符合该队列任 务所需资源大小的对应的节点上。
可选的,所述量化的用于表示该节点资源大小的数组为二元数组,所述二 元数组包括:资源类型以及量化数量。
可选的,所述量化的用于表示该队列任务所需资源大小的数组为二元数组, 所述所述二元数组包括:所需资源的类型以及量化数量。
本发明是一种基于Hadoop的任务调度器,在Hadoop基于标签的调度器上 提出来量化标签的调度方式。将原来粗粒度的标记节点资源的方式改为一种细 粒度的标记方式。将不同的节点区分开,将不同种类的任务提交到不同节点上。 这种方式可以提高资源利用率,使得适当的节点处理适当的任务。新的Hadoop 集群可以运行Spark、Storm、Mapreduce等不同的计算框架,在大型集群中,这 种基于量化标签的调度方法可以相对有效的隔离各种不同的作业类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511032371.9/2.html,转载请声明来源钻瓜专利网。