[发明专利]用于数据治理平台的模块化ETL任务处理系统和ETL任务处理方法有效
申请号: | 202210109047.6 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114443025B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 张吉林;史亚雄 | 申请(专利权)人: | 悦锦数字科技(上海)股份有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F8/36;G06F11/30;G06F11/32 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 治理 平台 模块化 etl 任务 处理 系统 方法 | ||
本发明公开了一种用于数据治理平台的模块化ETL任务处理系统,所述系统包括数据源管理模块、配置管理模块、任务管理模块、任务监控模块、数据分析模块;所述数据源管理模块为任务运行需要的数据源配置提供支持;所述配置管理模块为任务运行所需的全局配置项提供支持;所述任务管理模块为系统主模块,进行任务管理配置;所述任务监控模块为任务运行中的监控界面,负责监控任务执行进度及提供错误预警界面;所述数据分析模块为任务涉及字段提供关联关系分析,并为任务执行后的数据提供可视化图形分析界面。本发明还公开了一种利用上述ETL任务处理系统实现的ETL任务处理方法。
技术领域
本发明属于数据处理技术领域,涉及一种用于数据治理平台的模块化ETL任务处理系统和ETL任务处理方法。
背景技术
ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。目前处理ETL方法一般有三种方式,方法一:通过Python、SQL或其他编程方式实现,但这种方法实现的数据处理逻辑很难复用、开发成本高、纠错困难、且整个过程不够透明,无法做的实时监控,如果需要实现集抽取、转换、加载、监控于一体的功能需要耗费企业巨大的人力成本。方法二:通过Kettle实现,kettle虽然实现了可视化功能,功能也相对丰富,但其无法进行集中化任务管理,也无法进行权限管理,任务监控方式也比较单一,更无法做到执行记录回放。方法三:有一些企业会借助一些通用的数据处理工具如DataX,这种方式通过文本配置化的方式实现数据抽取、简单转换和数据加载,但这种方式也仅仅适用于一些简单逻辑的处理,遇到一些需要复杂转换的场景则需要自行开发插件,这对一般的企业来说有一定的技术门槛。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种用于数据治理平台的模块化ETL任务处理系统和ETL任务处理方法。
本发明中提出的模块化ETL任务处理系统,是一种集数据抽取、转换、校验、加载、监控、权限控制于一体的任务处理系统,通过可视化组件编排灵活组合各类组件完成复杂的数据处理逻辑,系统可供不同技术水平的用户使用,初级用户只需要根据系统提供的默认参数配置系统即可使用,高级用户可以通过系统提供的百余种内置函数、JAVASCRIPT、SQL等编程组件完成复杂的业务逻辑的处理。系统运行过程可视化,针对各个组件的运行过程做了详细的实时监控,通过统一的监控界面可以看到各个组件的运行状态、整体进度以及输入/输出记录数,同时历史任务执行情况可追溯、回放以及错误排查。
本发明提出了一种用于数据治理平台的模块化ETL任务处理系统,所述系统包括数据源管理模块、配置管理模块、任务管理模块、任务监控模块、数据分析模块;
所述数据源管理模块为任务运行需要的数据源配置提供支持,包括:数据库配置、FTP(文件传输协议)配置,其中数据库配置包括数据库类型配置、连接方式配置、登录账号配置、连接池配置,FTP配置包括协议配置、登录账号配置、数据传输编码配置;
所述配置管理模块为任务运行所需的全局配置项提供支持,包括:字典资源配置、邮件服务器配置、校验规则配置,其中邮件服务器配置包括:SMTP(简单邮件传输协议)服务器配置、SMTP端口配置、SMTP安全协议配置、登录账号配置,校验规则配置包括:数据类型配置、字段长度配置、字典值配置、数据范围配置、正则表达式配置;
所述任务管理模块为系统主模块,进行任务管理配置,包括数据迁移管理、在线绘图管理,任务复制管理、锁定/解锁管理;
所述任务监控模块为任务运行中的监控界面,负责监控任务执行进度及提供错误预警界面,所述任务监控包括任务执行日志回放、各组件运行日志回放、数据采样、可视化任务进度监控、错误数据提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于悦锦数字科技(上海)股份有限公司,未经悦锦数字科技(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210109047.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种融合事项优化方法及装置
- 下一篇:一种RSU不等间距OBU定位天线设计
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置