[发明专利]一种离线数据处理任务发布方法及系统在审
申请号: | 202011473566.8 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112445600A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 王锋;王同猛;郭振;程俊杰 | 申请(专利权)人: | 北京首汽智行科技有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F16/242 |
代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 李世端 |
地址: | 100026 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 离线 数据处理 任务 发布 方法 系统 | ||
本发明公开的离线数据处理任务发布方法,根据用户的离线数据处理任务更新操作,从代码评审中心Gerrit中获取各个离线数据处理任务的最新代码,编辑最新代码,对各个离线数据处理任务进行配置并将配置后的各个离线数据处理任务的状态设置为待发布状态,利用调度引擎,将待发布状态的离线数据处理任务发送至任务调度中心进行发布,支持脚本类离线数据处理之间的依赖关系、脚本类离线数据处理之间的依赖关系、跨工作流的依赖关系,根据依赖关系的强执行场景,提高了效率及适用性。另外,本发明还公开了一种离线数据处理任务发布系统。
技术领域
本发明涉及计算机技术领域,具体涉及一种离线数据处理任务发布方法及系统。
背景技术
近几年,车辆租赁业务在移动互联网推动下,用户增长迅速,订单猛增。在此背景下,各个汽车共享平台在分时租赁、日租、整租等主要业务场景积累了大量数据,同时也初步构建了租赁行业领先的数据体系,但存在任务管理、数据治理等方面的各种问题,尤其在离线数据处理任务管理及发布方面一系列问题。
当前,离线数仓任务管理主要方案如下:
借助IDE集成开发环境在开发离线数据处理任务(以下简称任务),任务主要分为SQL类任务或者脚本类任务,以便对数据进行清理和逻辑处理,提交任务代码到代码评审中心Gerrit,任务调度中心在固定时间(一般在凌晨0:30分)从代码评审中心Gerrit拉取最新任务,任务调度中心计算任务依赖关系并根据任务调度时间提交到数据计算集群,批量运行任务。
当前的方案存在以下问题:
(1)当前任务调度中心只能在固定的时间点拉取最新任务,已经无法支撑当前的数据临时处理场景,任务发布不及时同时流程不灵活;
(2)当前任务调度中心使用的是开源调度系统,对开发人员不友好,成本过高,任务调度设置、任务下线、执行、补数等任务管理操作完全依赖开发人员进行,无法让开发人员自助操作,效率低;
(3)仅支持sql类型任务之间的依赖关系,不支持脚本类任务之间的依赖依赖关系及跨工作流任务之间的依赖关系,无法支撑复杂的任务依赖关系,跨工作流需要逐个查看,效率低。同时问题出现时不支持跨工作流的强执行,需要逐个点击工作流对任务重新跑数,效率较低。
发明内容
针对现有技术存在的缺陷,本发明实施例提供了一种离线数据处理任务发布方法及系统。
第一方面,本发明实施例提供的离线数据处理任务发布方法包括以下步骤:
根据用户的离线数据处理任务更新操作,从代码评审中心Gerrit中获取各个离线数据处理任务的最新代码;
编辑所述最新代码,对所述各个离线数据处理任务进行配置并将配置后的各个离线数据处理任务的状态设置为待发布状态;
利用调度引擎,将待发布状态的离线数据处理任务发送至任务调度中心进行发布。
优选地,利用调度引擎,将待发布状态的离线数据处理任务发布至任务调度中心包括:
解析所述待发布状态的离线数据处理任务对应的SQL语句;
根据所述SQL语句,确定所述离线数据处理任务关联的源数据表及目标数据表;
根据所述源数据表及所述目标数据表,确定与所述离线数据处理任务具有依赖关系的离线数据处理任务。
优选地,利用调度引擎,将待发布状态的离线数据处理任务发布至任务调度中心包括:
根据执行参数中的源数据表参数及目标数据表参数,确定脚本类的离线数据处理任务关联的源数据表和目标数据表;
根据所述源数据表和所述目标数据表,确定与所述离线数据处理任务具有依赖关系的离线数据处理任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京首汽智行科技有限公司,未经北京首汽智行科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011473566.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种介孔Beta分子筛的制备方法
- 下一篇:一种可切换车载香氛装置