[发明专利]一种大数据处理平台配置的自动优化方法在审

申请号：	201911234883.1	申请日：	2019-12-05
公开（公告）号：	CN113032033A	公开（公告）日：	2021-06-25
发明（设计）人：	陈超;喻之斌	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06F9/445	分类号：	G06F9/445
代理公司：	北京市诚辉律师事务所 11430	代理人：	耿慧敏
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理平台配置自动优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种大数据处理平台配置的自动优化方法。该方法根据以下步骤收集配置参数训练集：随机生成大数据处理平台的一组配置参数，运行该组配置参数，并对执行时间t进行监测，当执行时间t超过动态设置的最大准许时间T_max时，终止运行；在配置参数运行过程中，根据执行时间t的波动情况确定是否退出收集配置参数训练集的过程；决定退出收集配置参数训练集的过程后，在所有运行成功的配置参数中选择执行时间最短的一组配置参数作为最优配置参数。本发明能够准确找出最优配置的前提下，显著缩短数据收集时间。

技术领域

本发明涉及计算机技术领域，尤其涉及一种大数据处理平台配置的自动优化方法。

背景技术

近年来，随着互联网技术的快速发展，大数据得到了越来越多的应用。例如，为了快速处理大数据，加州大学伯克利分校的AMP实验室设计了Spark大数据系统通用并行框架。它使用BSD开源许可，并于2013年被捐赠给了Apache软件基金会。Spark涵盖各种负载，如批处理程序、用户交互式程序、迭代算法等。它扩展了MapReduce模型，通过内存集群计算，大大减少了磁盘的读/写操作，从而大幅提升了数据处理速度。

Spark框架在运行过程中性能会受到配置参数的影响。由于应用程序的特性不同，在程序运行过程中如果使用默认参数，在很多情况下会限制系统的性能，无法充分使用系统资源。因此人们提出了自动配置参数调优方法。该类参数调优方法首先通过收集不同参数下的运行时间，然后运行人工智能等方法对配置参数和运行时间的关系进行训练，从而得到性能模型。在对新数据进行处理时，通过搜索性能模型得到合适的配置，从而达到优化配置参数的目的。

现有的Spark自动配置参数调优方法需要收集大量的不同配置参数下的运行时间(通常需要运行数百组至数千组数据)，然后使用这些原始数据进行训练。由于在使用较差配置参数时程序的运行时间非常长(较差配置参数和较优配置参数的运行时间可以相差几十倍)，导致在创建训练集时需要的时间成本非常高。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于大数据处理平台配置的自动优化方法，能够有效地避免较差配置情况下的超长运行时间，显著缩短训练集的收集过程。

本发明提供一种大数据处理平台配置的自动优化方法。该方法根据以下步骤收集配置参数训练集：

随机生成大数据处理平台的一组配置参数，运行该组配置参数，并对执行时间t进行监测，当执行时间t超过动态设置的最大准许时间T_max时，终止运行；

在配置参数运行过程中，根据执行时间t的波动情况确定是否退出收集配置参数训练集的过程；

决定退出收集配置参数训练集的过程后，在所有运行成功的配置参数中选择执行时间最短的一组配置参数作为最优配置参数。

在一个实施例中，根据以下步骤确定是否退出收集配置参数训练集的过程：

设定时间改进值为其中t_c为本次成功运行的时间，t_p为对比时间；

设置时间阈值为T_thres，当运行成功且δ＞T_thres时，t_p更新为当前时间；

n的初始值为n＝0，当每次运行成功且δ≤T_thres时，n＝n+1，当运行成功且δ＞T_thres时，n＝0；

当n大于设定的次数阈值时，则决定退出收集配置参数训练集的过程。