[发明专利]Hadoop的配置参数的计算方法及系统在审
申请号: | 201511025710.0 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105653355A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 刘勇;喻之斌;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F9/46 | 分类号: | G06F9/46 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hadoop 配置 参数 计算方法 系统 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种Hadoop的配置参数的计算方法及系 统。
背景技术
Hadoop是一个开源的分布式计算框架,其借鉴了MapReduce编程思想,简 化了数据的分发、处理、计算和任务的调度,并具有容错、高可靠、可扩展等 特性。编程人员只需要编写Map和Reduce函数,而Hadoop会自动将任务分配 到集群的各个节点,并执行任务。因此,该框架降低了并行编程的难度,而且 编程人员也可以充分利用硬件的资源。目前Hadoop已广泛应用于工业界和学术 界。
但MapReduce任务的性能由众多因素组成,如物理机群的硬件环境,操作 系统参数的配置,JVM性能,任务的调度,以及Hadoop配置参数等等。其中 Hadoop的参数配置对性能的影响至关重要。而基于经验的手调方案成本高,耗 时长。Hadoop具有190多个配置参数,用户在提交作业时需要指定一些参数, 而用户不知道如何调整这些参数,所以大多数用户只能使用默认配置参数,但 这不能最大程度挖掘Hadoop系统性能。有些用户根据经验采用暴力的方案去一 一尝试关键的参数,但是每个参数取值有很多种,样本空间巨大,且Hadoop配 置参数之间关系复杂,有些参数之间相互依赖。同时,不同任务的最佳参数组 合也是不同的,所以采用暴力尝试的方案是不合适的。论文(柳香,李瑞台,李 俊红,段胜业,2011)“Hadoop性能优化研究”,提出采用机器学习算法遗传算 法对配置方案进行选择、交叉、变异,多次迭代后产生近似最优方案。遗传算 法具有自适应性、收敛性好、鲁棒性高等优点,但该方案需要考虑所有配置参 数的组合,计算量大。
在实现现有技术的方案中,发现现有技术存在如下技术问题:
(1)仅仅基于遗传算法的方案,需要考虑所有配置参数的组合情况,Hadoop 有190多个配置参数,每个参数都有一定的阈值,组合情况大,计算量也大。
(2)基于代价的优化方案对Hadoop任务阶段进行划分,假设原子操作的 代价不变,但试验数据显示CETMPR,READIO,WRITEIO,NET,RDCPU,PTCPU 这6个原子操作代价变化明显,所以基于不正确的假设建立的分析模型精度不 高。
(3)AROMA建立的模型任务粒度不够细。
发明内容
提供一种Hadoop的配置参数的计算方法,所述Hadoop的配置参数的计算 方法解决现有技术的计算量大、粒度不够细和精度不高的问题。
一方面,提供一种Hadoop的配置参数的计算方法,所述方法包括如下步骤:
对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群, 输出为运行时间‘
以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输 出为Hadoop的重要配置参数;
采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
可选的,所述采用遗传算法对获取的重要性参数迭代搜索最优配置组合具 体,包括:
使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多 次迭代搜索近似最优配置组合。
可选的,所述方法还包括:
用最优配置组合替换所述工业环境的Hadoop配置值。
另一方面,提供一种Hadoop的配置参数的计算系统,所述系统包括:
采样单元,用于对工业环境下的实际的生产数据采样获得工业环境的小数 据集;
随机单元,用于随机产生Hadoop配置参数,并将工业环境的小数据集运行 于Hadoop集群,输出为运行时间‘
信息增益单元,用于以时间为类标,Hadoop配置参数的组合为输入,采用 信息增益的方案,输出为Hadoop的重要配置参数;
优化单元,用于采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
可选的,所述优化单元具体,用于使用机器学习算法遗传算法对所述重要 性参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
可选的,所述系统还包括:
替换单元,用于用最优配置组合替换所述工业环境的Hadoop配置值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511025710.0/2.html,转载请声明来源钻瓜专利网。