[发明专利]信息处理方法、装置、设备及存储介质在审
申请号: | 202110187484.5 | 申请日: | 2021-02-18 |
公开(公告)号: | CN113760407A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李冶钢;高伟;尹翔 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F9/448 | 分类号: | G06F9/448;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100176 北京市经济技术开*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 设备 存储 介质 | ||
本申请实施例提供一种信息处理方法、装置、设备及存储介质,应用于计算机技术。此方法包括:获取目标Spark任务对应的目标特征;根据目标特征和参数确定模型,确定目标Spark任务的参数,参数确定模型用于预测Spark任务的参数,参数确定模型是根据Spark任务的历史运行信息训练得到的。通过本申请可以自动调整Spark任务参数,在降低人力成本的同时,可以提升获得Spark任务参数的效率。
技术领域
本申请涉及大数据技术,尤其涉及一种信息处理方法、装置、设备及存储介质。
背景技术
Spark是专为大规模数据处理而设计的快速通用的计算引擎。相比Hadoop,Spark启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载,支持分布式数据集上的迭代作业。
实际应用中,用户提交一个Spark任务之后,这个Spark任务会启动一个对应的驱动进程,由该驱动进程需要向集群管理器申请运行Spark任务的执行器(executor);而集群管理器会根据用户为该Spark任务设置的参数,在集群中的各个工作节点上,启动一定数量的执行器,每个执行器占用一定数量的内存和处理器核。
在实现本申请过程中,发明人发现现有技术中至少存在如下问题:Spark任务的参数是由相关人员根据历史经验一一确定的,效率低且耗费大量的人力。
发明内容
本申请实施例提供一种信息处理方法、装置、设备及存储介质,可以高效率地确定Spark任务的参数,节省人力。
第一方面,本申请实施例提供一种信息处理方法,包括:
获取目标Spark任务对应的目标特征;
根据目标特征和参数确定模型,确定目标Spark任务的参数,参数确定模型用于预测Spark任务的参数,参数确定模型是根据Spark任务的历史运行信息训练得到的。
一种可能的实施方式中,上述根据目标特征和参数确定模型,确定目标Spark任务的参数,包括:
参数化目标特征,得到目标特征的编码值;
将编码值输入参数确定模型,得到目标Spark任务的参数。
一种可能的实施方式中,上述根据特征值和参数确定模型,确定目标Spark任务的参数之后,还包括:
设置目标Spark任务的参数;或者,
将目标Spark任务的当前参数调整为通过参数确定模型得到的参数。
一种可能的实施方式中,上述参数确定模型是通过以下步骤训练得到的:
获取Spark任务的历史运行信息;
从历史运行信息中提取Spark任务的特征信息;
基于Spark任务的特征信息迭代训练初始参数确定模型,直至计算得到的评估指标值满足预设评估条件;
确定评估指标值满足预设评估条件时对应的模型为参数确定模型;
其中,初始参数确定模型与参数确定模型的结构相同。
第三方面,本申请实施例提供一种参数确定模型的训练方法,包括:
获取Spark任务的历史运行信息;
从历史运行信息中提取Spark任务的特征信息;
基于Spark任务的特征信息迭代训练初始参数确定模型,直至计算得到的评估指标值满足预设评估条件;
确定评估指标值满足预设评估条件时对应的模型为参数确定模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110187484.5/2.html,转载请声明来源钻瓜专利网。