[发明专利]基于深度学习的大数据系统配置参数调优的方法和系统有效

申请号：	201710361578.3	申请日：	2017-05-22
公开（公告）号：	CN107229693B	公开（公告）日：	2018-05-01
发明（设计）人：	王宏志;王艺蒙;赵志强;孙旭冉	申请（专利权）人：	哈工大大数据产业有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/08
代理公司：	北京格允知识产权代理有限公司11609	代理人：	周娇娇,谭辉
地址：	150001 黑龙江省哈尔滨市经***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习数据系统配置参数方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于深度学习的大数据系统配置参数调优的方法和系统。

背景技术

近年来，大数据探索和分析在各个领域蓬勃发展。大数据系统可分为3个层次：(1)基础层：即基础数据加工层，将硬件资源分配给支持计算任务的执行平台层；(2)平台层：即核心业务层，既为应用层提供了一个易于处理数据集的接口，又能管理基础设施层分配的资源；(3)应用层：即预测结果输出层，预测出专家决策，给出大数据分析结果。

平台层在大数据系统中起到了承上启下的作用，也是一个大数据系统的核心部分。Hadoop系统中的MapReduce(映射规约)就是平台层中的一种模型。Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。MapReduce是Hadoop下的一种编程模型，用于大规模数据集(大于1TB)的并行运算。他极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。Hadoop的MapReduce功能实现了将单个任务打碎，并将映射任务(Map)发送到多个节点上，之后再以单个数据集的形式加载规约(Reduce)到数据仓库里。

配置参数设置对MapReduce工作性能有很大的影响。优质的配置参数使MapReduce工作出色，而配置参数错误是Hadoop的MapReduce系统性能退化和导致系统失效的主要原因。为了帮助平台管理员优化系统性能，需要调整配置参数处理不同的特点，不同的程序和不同的输入数据，以追求更快的工作表现。传统方法中，管理员对配置参数进行逐个调节，或利用线性回归，对参数进行配置，提取参数特征，根据MapReduce作业性能表现，从而给出近似最优解，预测配置参数以达到更好的工作性能。

然而，管理员管理Hadoop系统时存在两大难题：(1)因为大规模分布式系统的行为和特点过于复杂，难以找到适当的配置参数；(2)系统中存在数百参数，主要影响系统性能的配置参数有几十个，使配置参数调优变得麻烦。传统方法中，人工方法或者利用回归自动调参，非常复杂繁琐，参数调节需要消耗大量时间，且所得效果不是很好，系统整体工作需要消耗很长时间。

发明内容

本发明要解决的技术问题在于，针对现有技术中人工方法或者利用回归自动调节配置参数的效率低且效果差的缺陷，提供一种基于深度学习的大数据系统配置参数调优的方法和系统。

本发明第一方面，提供了一种基于深度学习的大数据系统配置参数调优的方法，包括神经网络训练步骤与配置参数预测步骤；其中，

所述神经网络训练步骤包括以下步骤：

步骤1-1、初步构建深度神经网络，其中以至少一个映射规约参数作为输入参数，以待预测出最优配置参数作为输出参数，以大数据系统的历史数据作为训练样本集；

步骤1-2、以映射规约时间作为该深度神经网络的衡量标准，基于反向传播思想的参数学习规则对每层神经元的权值进行调整，直至映射规约时间满足时间成本要求；

所述配置参数预测步骤包括以下步骤：

步骤2-1、设定所述至少一个映射规约参数的初始值，并读取当前测试数据；

步骤2-2、将所述至少一个映射规约参数的初始值和当前测试数据输入到经由神经网络训练步骤得到的深度神经网络中，得到用于基于深度学习的大数据系统的配置参数。

在根据本发明所述的基于深度学习的大数据系统配置参数调优的方法中，所述至少一个映射规约参数的数量为2～20个。

本发明第二方面，提供了一种基于深度学习的大数据系统配置参数调优的系统，包括神经网络训练模块与配置参数预测模块；其中，

所述神经网络训练模块用于初步构建深度神经网络，其中以至少一个映射规约参数作为输入参数，以待预测出最优配置参数作为输出参数，以大数据系统的历史数据作为训练样本集；并以映射规约时间作为该深度神经网络的衡量标准，基于反向传播思想的参数学习规则对每层神经元的权值进行调整，直至映射规约时间满足时间成本要求；