[发明专利]基于核聚类特征选择的Hadoop配置参数选择方法在审
申请号: | 202010290249.6 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111522632A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 刘俊;唐苏乐;徐光侠;马创;解绍词;杨敬尊;赵娟;李威 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F9/46 | 分类号: | G06F9/46;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 核聚类 特征 选择 hadoop 配置 参数 方法 | ||
本发明属于分布式处理系统技术领域,特别涉及一种基于核聚类特征选择的Hadoop配置参数选择方法,包括采集Hadoop平台不同配置参数的数据集;建立表示Hadoop平台配置参数的向量模型,用核宽向量表示该向量模型;基于所述核宽向量建立能反应配置参数重要性的核函数;执行核聚类算法形成聚类集合;利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v,若v中的元素小于预先设置的阈值则将该元素删除;若相邻两时刻的核宽向量对应的配置参数集合一致则输出此时核宽向量中对应的配置参数的集合;本发明可以选择出系统中较少的重要配置参数,以减少分布式处理系统中平台管理人员的维护工作量。
技术领域
本发明属于分布式处理系统技术领域,特别涉及一种基于核聚类特征选择 的Hadoop配置参数选择方法。
背景技术
Hadoop是目前广泛使用的分布式处理系统,是基于MapReduce模型的理论 基础实现。参数优化是改善Hadoop作业性能的重要问题之一,主要源自于 MapReduce模型的配置参数多达190多个,这些配置参数主要包括I/O管理、槽 资源地分配、内存管理、并发度、map和reduce配置等。一般的Hadoop平台管 理员很难全部的理解并正确配置这些配置参数,因为完全正确地配置全部参数 使得MapReduce达到最优的性能是NP(NondeterministicPolynomially,非确定 性多项式)问题。
参数优化是达到设计目标的一种方法,通过将设计目标参数化,采用优化 方法,不断的调整设计变量,使得设计结果不断接近参数化的目标值。参数调 优是通过将一个系统或者模型中的各个配置参数进行优化组合,再配置到模型 或系统中,使得该模型或系统达到较好的性能。参数选择是参数优化中的一种 重要分支方法,其主要原理是从已存在的全部参数中选择能影响目标功能的部 分或少许参数以达到减少配置工作量的效果。
已经有许多研究主要集中在对Hadoop平台的所有配置参数全部进行调优, 即对平台中190多个配置参数寻找一个最佳的组合方案。但是,Hadoop平台的 参数太多,对所有的配置参数进行优化组合,寻求最佳方案比较困难。为此, 选择重要配置参数进行配置显得很有必要,配置参数优化是近年分布式处理系 统整体性能调优的重要研究热点之一。
目前的参数优化方法主要分为以下三种:
(1)基于模拟器的参数调优方法;例如,LiuY等人(参见文献Liu Y,Li M, Alham NK,Hammoud S.HSim:A MapReduce simulator in enabling Cloud Computing[J].FutureGeneration Computer Systems,2013,29(1):300-308.)提出了 一种基于模拟器评价的优化方法,此方法通过捕获集群中各节点、网络配置、 磁盘参数、数据置放策略和I/O等信息,并通过离散事件来模拟作业在某些配置 参数环境下的执行过程,以此来优化配置参数。但其最主要的缺点是用户仍需 要手动的调整部分参数,无法选择影响分布式处理系统作业性能的重要配置参 数,而且耗时很长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010290249.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车内饰氛围灯总成及其制作方法
- 下一篇:一种氯钯酸溶液的制备方法