[发明专利]一种在线配置Hadoop参数的方法和装置有效
申请号: | 201310672010.5 | 申请日: | 2013-12-10 |
公开(公告)号: | CN103701635B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 贝振东;喻之斌;曾经纬;张慧玲;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 深圳中一专利商标事务所44237 | 代理人: | 张全文 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种在线配置Hadoop参数的方法和装置,以实现系统运行的性能最优。该方法包括对生产环境集群中作业的数据量进行监控;当监控到生产环境集群中作业的数据量大于预设值时,统计当前配置下k个节点在p个任务阶段中每个任务阶段完成作业的平均完成时间;分别计算集合与n个记录中作业特征属性集合的n个欧几里得距离,获得n个欧几里得距离中最小欧几里得距离对应的记录;在当前配置和最优配置的配置参数值不等时,将最优配置设置为数据量大于预设值的作业在生产环境集群中运行时使用的配置。本发明能够在可以接受的时间里将这些情况的作业运行调整到资源使用的平衡状态,提高了系统在线运行的平均效率,实现系统运行的性能最优。 | ||
搜索关键词: | 一种 在线 配置 hadoop 参数 方法 装置 | ||
【主权项】:
一种在线配置Hadoop参数的方法,其特征在于,所述方法包括:作业监控器对生产环境集群中用户所提交作业的数据量进行监控;当监控到所述生产环境集群中用户所提交作业的数据量大于预设值时,所述作业监控器统计当前配置下所述生产环境集群的k个节点在p个任务阶段中每个任务阶段完成所述用户所提交作业的平均完成时间patphase,所述p个平均完成时间patphase构成集合PhaseAveTime,所述k为大于1的自然数;作业匹配器分别计算所述集合PhaseAveTime与配置数据库n个记录中作业特征属性集合JobAveTime的n个欧几里得距离,获得所述n个欧几里得距离中最小欧几里得距离对应的记录,所述配置数据库n个记录分别包含n个作业对应的n个训练作业在训练时获得的n个作业特征属性集合和n个完成所述n个训练作业时所使用的最优配置,所述n为大于1的自然数;资源平衡器比较所述当前配置和最优配置,若所述当前配置和最优配置的配置参数值不等,则将所述最优配置设置为所述数据量大于预设值的用户所提交作业在所述生产环境集群中运行时使用的配置;所述作业匹配器分别计算所述集合PhaseAveTime与配置数据库n个记录中作业特征属性集合JobAveTime的n个欧几里得距离,获得所述n个欧几里得距离中最小欧几里得距离对应的记录,包括:按照公式计算所述集合PhaseAveTime与配置数据库n个记录中作业特征属性集合JobAveTime的n个欧几里得距离,所述TimeEuclidDistance为所述集合PhaseAveTime与配置数据库n个记录中作业特征属性集合JobAveTime的n个欧几里得距离中的任意一个欧几里得距离,所述jatphase∈JobAveTime,所述jatphase为对所述n个作业中的一个作业进行s次随机抽样所得s个训练作业Ws提交至测试环境集群中运行时,在所述p个任务阶段中一个任务阶段完成所述s次所述n个作业中的一个作业的平均完成时间,所述Phase为所述p个任务阶段构成的集合,所述phase为所述Phase中的元素;获得TimeEuclidDistance的最小值后,从所述配置数据库中取使得所述n个欧几里得距离中欧几里得距离最小时对应的记录。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310672010.5/,转载请声明来源钻瓜专利网。