[发明专利]一种基于Hadoop多作业环境下的资源调度方法有效
申请号: | 201510297019.1 | 申请日: | 2015-06-03 |
公开(公告)号: | CN104915407B | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 王芳;冯丹;杨静怡;潘佳艺;周俊 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/48;G06F11/14 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算节点 集群 任务资源需求 集群节点 监控信息 配置策略 实时采集 资源调度 作业环境 相似度评估 有效地分配 资源调度器 计算能力 监控数据 节点资源 评估节点 资源碎片 资源需求 综合考虑 作业执行 并发度 异构性 建模 还原 | ||
本发明公开了一种基于Hadoop多作业环境下的资源调度方法,包括:(1)实时采集集群负载、Hadoop平台以及硬件三方监控信息,(2)实时采集集群各计算节点上用户的作业执行监控信息,(3)汇总集群三方监控数据,建模评估节点的计算能力,并将集群节点划分为优势计算节点和劣势计算节点,(4)若节点为优势计算节点,则启动基于相似度评估的作业任务资源需求配置策略,(5)若节点为劣势计算节点,则还原为Yarn默认的资源需求配置策略。本发明解决了Yarn现有资源调度器中任务资源需求划分粒度过大导致的资源碎片问题,能够综合考虑集群节点和作业的异构性,通过合理、有效地分配节点资源增加集群执行并发度,从而提高Hadoop集群多作业的执行效率。
技术领域
本发明属于大数据技术领域,更具体地,涉及一种基于Hadoop多作业环境下的资源调度方法。
背景技术
随着大数据与互联网时代来临,大数据技术目前已成为学术界和产业界的研究热点,而Hadoop作为开源的大数据处理平台不论在企业还是学术科研领域都已经得到了广泛应用。但是第1代Hadoop在使用中存在单点故障、资源利用率低、无法支持多种计算框架等实际问题。为克服上述缺点,Apache推出了第2代Hadoop,将资源管理模块构建成了一个独立的通用资源管理系统Yarn,统一负责集群的资源分配以及任务调度。Yarn能够让多种计算框架(MapReduce、内存计算框架Spark、流式计算框架Strom和图计算框架等)运行在一个集群中,为不同的并行化计算提供统一的资源分配服务,使得集群具有易于运维、资源弹性可伸缩和数据可共享等优点。其中,资源调度器是Hadoop Yarn中最核心的组件之一,Yarn的资源调度策略会直接影响集群的任务分配,从而影响Hadoop集群整体性能。
目前Yarn主要自带以下三种常用资源调度器:①FIFO调度器(First In FirstOut Scheduler):先来先服务资源调度器,Hadoop按照作业提交顺序依次运行这些作业;②计算能力调度器(Capacity Scheduler):是Yarn中默认的资源调度器,适用于多用户共享集群,采用队列的形式分配和调度集群资源,每个队列可设定一定比例的资源最低保证和使用上限,同时,每个用户也可设定一定的资源使用上限以防止资源滥用;③公平调度器(Fair Scheduler):以队列为单位划分资源,支持分级队列,允许每个队列单独配置调度策略,包括FIFO、Fair和DRF,即先来先服务、公平调度和主资源公平调度。
Yarn已有的资源调度策略虽然十分多样化,但仍存在明显的缺陷。一方面,在实际运行环境中,Hadoop集群多为异构集群,集群中各计算节点的综合计算能力存在较大差异,而Yarn常规的静态任务资源分配策略无法感知不同节点的异构性,无法根据集群中异构节点的计算能力、作业执行监控状况和资源使用情况动态调整节点上运行的任务数目,间接导致集群所有计算节点上的并发度一样;另一方面,Yarn现有的资源调度算法并未考虑用户提交的作业之间的区别,即未考虑不同类型的作业以及同作业不同执行阶段实际资源需求的异构性,存在大量资源碎片的现象,导致Hadoop平台无法充分利用集群资源,例如很多作业任务可能是io密集型的,消耗的cpu资源非常少,如果此时资源调度器为它分配一整个单位的cpu,剩余的cpu碎片资源无法让其他作业任务使用,是一种严重的资源浪费,会极大程度上地降低系统资源的利用率,减少作业任务执行的并发度,从而直接影响集群作业的执行效率,最终导致Hadoop整体性能下降。
综上所述,Hadoop2.0现有的资源调度策略未考虑集群节点和作业的异构性,无法根据节点的处理能力、作业执行监控状况和资源使用情况动态改变作业的资源需求,无法同时保证作业任务的高效并发和集群资源的充分利用,从而导致系统整体性能下降。
发明内容
针对现有资源调度技术的缺陷,本发明的目的在于提供一种能够根据集群节点异构性、作业执行监控状况和资源使用情况动态调整资源需求的资源调度方法,旨在解决目前已有资源调度策略导致的集群整体资源利用率低、系统性能差的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510297019.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种武夷湍蛙抗菌肽及其编码基因和应用
- 下一篇:固态成像设备和成像系统