[发明专利]基于spark内核的任务执行方法、系统和计算机设备在审

申请号：	202011472995.3	申请日：	2020-12-15
公开（公告）号：	CN112486468A	公开（公告）日：	2021-03-12
发明（设计）人：	段晓航	申请（专利权）人：	恩亿科（北京）数据科技有限公司
主分类号：	G06F8/30	分类号：	G06F8/30;G06F9/48
代理公司：	青岛清泰联信知识产权代理有限公司 37256	代理人：	李红岩
地址：	100192 北京市海淀区西小口路66***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 spark 内核任务执行方法系统计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种基于spark内核的任务执行方法、系统、计算机设备，其中，该任务执行方法包括：任务流生成步骤，spark driver节点读取并根据一配置文件生成任务流；任务分配步骤，akka根据任务流分配任务；任务执行步骤，一调度器根据分配任务的信息将任务分发至对应的执行节点，并将执行结果发送至spark driver节点。通过将akka和spark的结合达到对etl的任务流并行执行以及对该任务流中每个任务并行执行，从而提高执行效率；以及通过配置文件的方式省去编写代码的成本，提高开发效率。

技术领域

本申请涉及大数据技术领域，特别是涉及基于spark内核的任务执行方法、系统、计算机设备。

背景技术

随着大数据云时代的到来，各行各业对数据的应用的需求越来越多，在数据应用中，对多元异构数据的同步和计算是数据应用的基础，如何在不同数据源间进行高效同步和快速开发etl成为行业面临的主要问题。

现有技术中一般通过编写mapreduce代码或spark代码进行etl开发。但是存在以下缺点：

1、不支持实时数据同步；

2、不支持集群部署，受限于单台服务器性能，速度慢，易发生内存溢出等；

3、不支持配置多任务；

4、任务失败无通知机制；

5、进行etl计算速度慢；

6、需要通过编写代码、打包项目部署，开发效率低，难度高。

目前针对相关技术中开发效率低的问题，尚未提出有效的解决方案。