[发明专利]用于数据治理平台的模块化ETL任务处理系统和ETL任务处理方法有效
申请号: | 202210109047.6 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114443025B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 张吉林;史亚雄 | 申请(专利权)人: | 悦锦数字科技(上海)股份有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F8/36;G06F11/30;G06F11/32 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 治理 平台 模块化 etl 任务 处理 系统 方法 | ||
1.一种用于数据治理平台的模块化ETL任务处理系统,其特征在于,所述系统包括数据源管理模块、配置管理模块、任务管理模块、任务监控模块、数据分析模块;
所述数据源管理模块为任务运行需要的数据源配置提供支持,包括:数据库配置、文件传输协议FTP配置;其中数据库配置包括数据库类型配置、连接方式配置、登录账号配置、连接池配置,FTP配置包括协议配置、登录账号配置、数据传输编码配置;
所述配置管理模块为任务运行所需的全局配置项提供支持,包括:字典资源配置、邮件服务器配置、校验规则配置;其中邮件服务器配置包括:简单邮件传输协议SMTP服务器配置、SMTP端口配置、SMTP安全协议配置、登录账号配置,校验规则配置包括:数据类型配置、字段长度配置、字典值配置、数据范围配置、正则表达式配置;
所述任务管理模块为系统主模块,进行任务管理配置,包括数据迁移管理、在线绘图管理,任务复制管理、锁定/解锁管理;
所述任务监控模块为任务运行中的监控界面,负责监控任务执行进度及提供错误预警界面,所述任务监控包括任务执行日志回放、各组件运行日志回放、数据采样、可视化任务进度监控、错误数据提取;
所述数据分析模块为任务涉及字段提供关联关系分析,并为任务执行后的数据提供可视化图形分析界面,所述数据分析包括:字段和任务关联关系分析、字段和数据源关联关系分析、执行日志分析。
2.一种利用如权利要求1所述ETL任务处理系统实现的ETL任务处理方法,其特征在于,所述方法包括如下步骤:
步骤一、根据任务需要,选择任务执行需要的ETL任务组件并进行初始化;
步骤二、从数据源中选择拉取任务需要的数据;
步骤三、计算需要的线程数,将经过初始化的ETL任务组件分配给各线程并启动各线程,步骤二中的数据按需分配各线程,并利用线程中的ETL组件进行处理;
步骤四、将处理后的数据保存到数据库中供后续环节使用,或更新任务状态重复上述操作。
3.如权利要求2所述的ETL任务处理方法,其特征在于,所述任务的流程通过图形化自定义流程、可视化属性编辑方式、批量属性导入/导出设计;流程设计区域支持复制、剪贴、粘贴、回退、前进操作;各组件之间的数据流转、路径分支通过图形化拖拽方式进行控制,不同组件之间支持数据流分发、复制操作;各组件之间能够通过自由组合完成复杂业务逻辑。
4.如权利要求2所述的ETL任务处理方法,其特征在于,步骤一中,所述ETL任务组件包括输入类组件、转换类组件、输出类组件、流程类组件、应用类组件五大类;
所述输入类组件负责读取数据源并生成输入流,包括表输入组件、Excel输入组件、TXT输入组件、定长文本输入组件、XML输入组件、常量输入组件、读取文件列表组件、从结果集输入组件;
所述转换类组件负责数据流的各类转换,通过不同组件的排列组合完成业务逻辑的处理,包括表输出组件、表插入/更新组件、Excel输出组件、TXT输出组件、定长文本输出组件、XML输出组件、结果集输出组件、设置变量组件;
所述输出类组件负责将输入流储存至数据源,包括连接组件、聚合组件、排序组件、清洗组件、去重组件、行转列组件、列转行组件、公式组件、差异对比组件、输入流合并组件;
所述流程类组件负责条件判断、状态转换、路径选择操作;包括校验组件、布尔过滤组件、枚举过滤组件、条件中止组件、步骤等待组件、数据延时组件;
所述应用类组件负责各种类型的单一业务数据处理,不涉及数据流输入,包括SQL执行组件、存储过程组件、SHELL组件、SSH组件、HTTP组件、发送Email组件、FTP下载组件、FTP上传组件、解压文件组件、压缩文件组件、更改文件编码组件、延时组件、检查文件组件、创建文件组件、删除文件组件、转移文件组件、JavaScript组件。
5.如权利要求2所述的ETL任务处理方法,其特征在于,步骤二中,所述数据源包括数据库、JSON、TXT、RESTAPI、XML、CSV、Excel、固定长度文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于悦锦数字科技(上海)股份有限公司,未经悦锦数字科技(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210109047.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种融合事项优化方法及装置
- 下一篇:一种RSU不等间距OBU定位天线设计
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置