[发明专利]一种在线管理Hadoop集群资源的方法和装置有效
申请号: | 201310646044.7 | 申请日: | 2013-12-04 |
公开(公告)号: | CN103713935B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 贝振东;喻之斌;曾经纬;张慧玲;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50;H04L29/08 |
代理公司: | 深圳中一专利商标事务所44237 | 代理人: | 张全文 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种在线管理Hadoop集群资源的方法和装置,以根据作业在线运行的特点动态地调整所需虚拟资源,避免资源的浪费。所述方法包括对生产环境集群中用户所提交作业运行情况进行监控;获取在生产环境集群中使用k台运行代价最小的虚拟机中的任意一台作为虚拟资源时m个map任务的槽平均处理速度和r个reduce任务的槽平均处理速度;根据保存的运行代价最小的虚拟机的性能特征、MapSlotSpeed、ReduceSlotSpeed和用户对所提交作业的期望完成时间,重新确定在生产环境集群中运行用户所提交作业需要运行代价最小的虚拟机的数量knew;若knew和k不等,则将生产环境集群中运行代价最小的虚拟机调整至knew台。本发明使得用户所提交作业能够按时按需完成,提高了用户使用虚拟机的性价比。 | ||
搜索关键词: | 一种 在线 管理 hadoop 集群 资源 方法 装置 | ||
【主权项】:
一种在线管理Hadoop集群资源的方法,其特征在于,所述方法包括:作业管理器对生产环境集群中用户所提交作业运行情况进行监控;日志分析器获取在所述生产环境集群中使用k台运行代价TotalCost最小的虚拟机中的任意一台作为虚拟资源运行所述用户所提交作业中m个map任务和r个reduce任务时所述m个map任务的槽平均处理速度MapSlotSpeed和所述r个reduce任务的槽平均处理速度ReduceSlotSpeed;代价预测器根据虚拟机信息数据库保存的所述运行代价TotalCost最小的虚拟机的性能特征、所述MapSlotSpeed、ReduceSlotSpeed和用户对所提交作业的期望完成时间ExpectTime,重新确定在所述生产环境集群中运行所述用户所提交作业需要所述运行代价TotalCost最小的虚拟机的数量knew;虚拟资源管理器比较所述knew和所述k,若所述knew和所述k不等,则将所述生产环境集群中所述运行代价TotalCost最小的虚拟机的数量调整至knew台;所述日志分析器获取在所述生产环境集群中使用k台运行代价TotalCost最小的虚拟机中的任意一台作为虚拟资源运行所述用户所提交作业中m个map任务和r个reduce任务时所述m个map任务的槽平均处理速度MapSlotSpeed和所述r个reduce任务的槽平均处理速度ReduceSlotSpeed,包括:在所述作业管理器监控到所述用户所提交作业中m个map任务和r个reduce任务在k台运行代价TotalCost最小的虚拟机作为虚拟资源的生产环境集群中完成时,接收所述作业管理器提交的所述用户所提交作业的日志;按照公式公式和公式计算,得到所述MapSlotSpeed、ReduceSlotSpeed和RatioMapOutAve,所述dataPerMapTaskj为第j个map任务处理的数据量大小,所述mapTaskTimej为第j个map任务的执行时间,所述dataPerReduceTaskj为第j个reduce任务处理的数据量大小,所述reduceTaskTimej为第j个reduce任务的执行时间,所述outputDataMapTaskj为第j个map任务的输入数据大小,所述inputDataMapTaskj为第j个reduce任务输出数据大小,所述RatioMapOutAve为每个map任务输入非压缩数据和输出的非压缩数据比;所述代价预测器根据虚拟机信息数据库保存的所述运行代价TotalCost最小的虚拟机的性能特征、所述MapSlotSpeed、ReduceSlotSpeed和用户对所提交作业的期望完成时间ExpectTime,重新确定在所述生产环境集群中运行所述用户所提交作业需要所述运行代价TotalCost最小的虚拟机的数量knew,包括:从所述虚拟机信息数据库中读取所述运行代价TotalCost最小的虚拟机的map任务的槽数MapSlotNum和reduce任务的槽数ReduceSlotNum;在约束条件TotalTime<ExpectTime下,计算在所述生产环境集群中运行所述用户所提交作业所需所述运行代价TotalCost最小的虚拟机的数量knew,所述TotalTime为所述代价预测器估计的完成所述用户所提交作业的时间,所述TotalTime等于所述ShuffleDataSize等于TotalSize×RatioMapOutAve,所述TotalSize为运行所述用户所提交作业的总数据大小,所述RatioMapOutAve为每个map任务输入非压缩数据和输出的非压缩数据比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310646044.7/,转载请声明来源钻瓜专利网。
- 上一篇:高纯度、高收率药物重结晶装置
- 下一篇:一种汽油抗爆剂MMT的精馏工艺装置