[发明专利]信息处理方法、装置、设备及存储介质在审

申请号：	202110187484.5	申请日：	2021-02-18
公开（公告）号：	CN113760407A	公开（公告）日：	2021-12-07
发明（设计）人：	李冶钢;高伟;尹翔	申请（专利权）人：	北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06F9/448	分类号：	G06F9/448;G06K9/62
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	张娜;臧建明
地址：	100176 北京市经济技术开***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种信息处理方法、装置、设备及存储介质，应用于计算机技术。此方法包括：获取目标Spark任务对应的目标特征；根据目标特征和参数确定模型，确定目标Spark任务的参数，参数确定模型用于预测Spark任务的参数，参数确定模型是根据Spark任务的历史运行信息训练得到的。通过本申请可以自动调整Spark任务参数，在降低人力成本的同时，可以提升获得Spark任务参数的效率。

技术领域

本申请涉及大数据技术，尤其涉及一种信息处理方法、装置、设备及存储介质。

背景技术

Spark是专为大规模数据处理而设计的快速通用的计算引擎。相比Hadoop，Spark启用了内存分布数据集，除了能够提供交互式查询外，还可以优化迭代工作负载，支持分布式数据集上的迭代作业。

实际应用中，用户提交一个Spark任务之后，这个Spark任务会启动一个对应的驱动进程，由该驱动进程需要向集群管理器申请运行Spark任务的执行器(executor)；而集群管理器会根据用户为该Spark任务设置的参数，在集群中的各个工作节点上，启动一定数量的执行器，每个执行器占用一定数量的内存和处理器核。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：Spark任务的参数是由相关人员根据历史经验一一确定的，效率低且耗费大量的人力。

发明内容

本申请实施例提供一种信息处理方法、装置、设备及存储介质，可以高效率地确定Spark任务的参数，节省人力。

第一方面，本申请实施例提供一种信息处理方法，包括：

获取目标Spark任务对应的目标特征；

根据目标特征和参数确定模型，确定目标Spark任务的参数，参数确定模型用于预测Spark任务的参数，参数确定模型是根据Spark任务的历史运行信息训练得到的。

一种可能的实施方式中，上述根据目标特征和参数确定模型，确定目标Spark任务的参数，包括：

参数化目标特征，得到目标特征的编码值；

将编码值输入参数确定模型，得到目标Spark任务的参数。

一种可能的实施方式中，上述根据特征值和参数确定模型，确定目标Spark任务的参数之后，还包括：

设置目标Spark任务的参数；或者，

将目标Spark任务的当前参数调整为通过参数确定模型得到的参数。