[发明专利]任务执行方法与装置、电子设备、存储介质有效
申请号: | 202010085756.6 | 申请日: | 2020-02-11 |
公开(公告)号: | CN110928721B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 龙下洋 | 申请(专利权)人: | 北京懿医云科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 执行 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质,属于大数据技术领域。该方法包括:在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,循环过程包括:在当前执行器中执行目标任务,并获取目标任务的执行状态;当确定执行状态属于执行失败时,重新创建执行器;将重新创建的执行器作为当前执行器以执行目标任务。本公开可以将失败的任务重新分配到重新创建的执行器中,保障作业的稳定运行。
本申请要求于2020年1月22日提交中国专利局、申请号为2020100757286发明名称为“任务执行方法与装置、电子设备、存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本公开涉及大数据技术领域,尤其涉及一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质。
背景技术
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark 作业时,如果当前执行器出现内存溢出,需要在其他执行器中不断重试,浪费时间。并且,在重试过程中任务执行失败的概率较高,作业运行的稳定性较低。
发明内容
本公开的目的在于提供一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质,进而至少在一定程度上克服由于现有技术的限制和缺陷而导致的在出现内存溢出的情况下,重试过程中任务执行失败的概率较高,作业运行的稳定性较低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种基于Spark的任务执行方法,包括:
在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,所述循环过程包括:
在当前执行器中执行所述目标任务,并获取所述目标任务的执行状态;
当确定所述执行状态属于执行失败时,重新创建执行器;
将重新创建的执行器作为所述当前执行器以执行所述目标任务。
可选的,在确定所述执行状态属于执行失败之后,所述方法还包括:
当确定失败原因属于内存溢出时,执行所述重新创建执行器的步骤,并动态扩展重新创建的执行器的内存。
可选的,在确定所述执行状态属于执行失败之后,且在确定失败原因属于内存溢出之前,所述方法还包括:
判断所述执行状态属于执行失败的次数是否大于预设次数;
当所述执行状态属于执行失败的次数不大于所述预设次数时,获取失败原因;
当所述执行状态属于执行失败的次数大于所述预设次数时,确定所述目标任务执行失败。
可选的,本公开实施例的基于Spark的任务执行方法,还包括:
在重新创建执行器时,开启扩展内存开关,以使用户对扩展参数进行配置。
可选的,所述动态扩展重新创建的执行器的内存,包括:
获取当前执行器的内存以及用户对所述扩展参数配置的参数值;
根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存。
可选的,所述根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存,包括:
将当前执行器的内存、执行失败的次数以及所述参数值的乘积,与当前执行器的内存之和作为重新创建的执行器的内存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京懿医云科技有限公司,未经北京懿医云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010085756.6/2.html,转载请声明来源钻瓜专利网。