[发明专利]一种在线管理Hadoop集群资源的方法和装置有效
申请号: | 201310646044.7 | 申请日: | 2013-12-04 |
公开(公告)号: | CN103713935B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 贝振东;喻之斌;曾经纬;张慧玲;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50;H04L29/08 |
代理公司: | 深圳中一专利商标事务所44237 | 代理人: | 张全文 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 管理 hadoop 集群 资源 方法 装置 | ||
技术领域
本发明涉及云计算领域,具体涉及一种在线管理Hadoop集群资源的方法和装置。
背景技术
Hadoop是Apache开源组织的一个分布式计算开源框架,被设计用来在由通用计算设备组成的大型集群上执行分布式应用。基于Java语言构建的Hadoop框架实际上是一种分布式处理大数据的平台,在近十年中,Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心,是一种处理大型及超大型数据集(TB级别的数据,包括网络点击产生的流数据、日志文件和社交网络等所带来的数据)并生成相关的执行的编程模型,其主要思想是从函数式编程语言借鉴而来的,同时也包含了从矢量编程语言借鉴的特性。由于Hadoop具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台,在很多大型网站上都已经得到了应用,例如,亚马逊、Facebook和Yahoo等等。
然而,美中不足的是:运行Hadoop或其它基于MapReduce的集群需要用户手工进行长时间的配置、管理和集群节点数量的调整。在部署Hadoop云计算框架时,若用户自行搭建大规模数据处理环境,则需要用户根据处理的作业和数据量大小综合考虑集群中各个节点的计算能力、带宽和存储等问题。
为解决上述问题,可以将Apache的Hadoop构建在虚拟机上,实现资源的按需分配,并且自动化集群的配置和管理。现有的一种管理Hadoop集群资源的方法是Amazon EC2提出的所谓弹性Apache Hadoop,弹性Apache Hadoop构建在EC2和S3上,并且利用预先配置的Hadoop工作环境提供EMR(Elastic MapReduce)服务,以按用量付费的方式按需使用由Hadoop集群组成的计算处理环境和大规模数据存储环境。利用这样的弹性计算环境,即使是资金不太充裕的创业型公司,也可以进行按需便捷地进行大数据的分析。
在实施上述现有技术提供的管理Hadoop集群资源的方法中,需要用户在提交作业时确定所需要的虚拟资源。由于用户提交的作业一般都有时间的限制,用户只能凭直觉或者经验申请比较多的虚拟资源以按时完成任务,而申请过多的虚拟资源以运行作业需要较大的成本。在成本和时间的权衡中,用户很难确定合适的虚拟资源运行自己的作业,如此,就很难实现在按时完成作业的前提下尽可能地降低成本。而且,作业在运行过程中处理的数据一般是不同的,处理不同的数据会使得MapReduce程序性能地变化,如此,也有可能会造成最终完成时间的变化。
发明内容
本发明实施例提供一种在线管理Hadoop集群资源的方法和装置,以根据作业在线运行的特点动态地调整所需虚拟资源,避免资源的浪费。
本发明实施例提供一种在线管理Hadoop集群资源的方法,所述方法包括:
作业管理器对生产环境集群中用户所提交作业运行情况进行监控;
日志分析器获取在所述生产环境集群中使用k台运行代价TotalCost最小的虚拟机中的任意一台作为虚拟资源运行所述用户所提交作业中m个map任务和r个reduce任务时所述m个map任务的槽平均处理速度MapSlotSpeed和所述r个reduce任务的槽平均处理速度ReduceSlotSpeed;
代价预测器根据虚拟机信息数据库保存的所述运行代价TotalCost最小的虚拟机的性能特征、所述MapSlotSpeed、ReduceSlotSpeed和用户对所提交作业的期望完成时间ExpectTime,重新确定在所述生产环境集群中运行所述用户所 提交作业需要所述运行代价TotalCost最小的虚拟机的数量knew;
虚拟资源管理器比较所述knew和所述k,若所述knew和所述k不等,则将所述生产环境集群中所述运行代价TotalCost最小的虚拟机调整至knew台。
本发明另一实施例提供一种在线管理Hadoop集群资源的装置,所述包括:
作业管理器,用于对生产环境集群中用户所提交作业运行情况进行监控;
日志分析器,用于获取在所述生产环境集群中使用k台运行代价TotalCost最小的虚拟机中的任意一台作为虚拟资源运行所述用户所提交作业中m个map任务和r个reduce任务时所述m个map任务的槽平均处理速度MapSlotSpeed和所述r个reduce任务的槽平均处理速度ReduceSlotSpeed;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310646044.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高纯度、高收率药物重结晶装置
- 下一篇:一种汽油抗爆剂MMT的精馏工艺装置