[发明专利]一种ETL中基于规则配置的数据处理的系统和方法在审
申请号: | 202011539491.9 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112527885A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 李振;鲁宾宾;曾琦凯;王云端;陈枫 | 申请(专利权)人: | 民生科技有限责任公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 101300 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 etl 基于 规则 配置 数据处理 系统 方法 | ||
1.一种ETL中基于规则配置的数据处理的系统,其特征在于,所述系统包括:配置信息生成模块、配置加载模块、配置解析模块、构建数据处理链模块和数据处理模块;
其中,所述配置信息生成模块,用于基于实际数据的处理场景确认自定义子单元的配置信息;
所述配置加载模块,用于将所述配置信息生成模块的配置信息进行加载;
所述配置解析模块,用于将加载的配置信息转化;
所述构建数据处理链模块,用于根据转化后配置信息构建需调用自定义子单元的的数据处理链路顺序,完成各个处理子单元和执行引擎完成初始化;
所述数据模块,抽取待处理数据,按照所述构建数据处理链模块确认的顺序对待处理数据进行加工,将加工生成的数据存储在加工数据缓存区,并输出加工后数据。
2.根据权利要求1所述的系统,其特征在于,所述自定义子单元包括:
源数据分析子单元,用于定义源数据格式及基本信息的描述,
处理链子单元,用于使用数组的数据结构进行组织调用顺序,
转化子单元,用于对数据进行数据类型转化;
设置子单元,用于设置字段的值,重置字段值或新增字段;
解析子单元,用于字符串解析,支持按字符切割或正则匹配切割;
映射子单元,用于字段映射;
输出子单元,用于定义数据输出格式;支持文件格式为JDBC、FILE、HDFS和KAFKA。
3.根据权利要求2所述的系统,其特征在于,所述自定义子单元还包括判断子单元,所述判断子单元,用于提供逻辑判断的语义支持。
4.一种如权利要求1-3任一项所述的ETL中基于规则配置的数据处理系统的处理方法,其特征在于,所述方法具体包括以下步骤:
S1)基于实际数据的处理场景确认自定义子单元的配置信息;
S2)加载配置信息,并转化;
S3)用于根据转化后配置信息构建需调用自定义子单元的的数据处理链路顺序,生成数据处理策略,完成自定义子单元和执行引擎完成初始化,
S4)抽取待处理数据并按照数据处理策略进行分加工,并输出加工后的数据。
5.根据权利要求4所述的方法,其特征在于,所述方法包括判断步骤:
用于根据加工后的数据是否符合实际数据的处理场的要求进行判断,如果符合则保留加工后数据,如果不符合,则不保留加工后数据,处理下一条待处理数据。
6.根据权利要求5所述的方法,其特征在于,所述S1)的具体为:
S1.1)先从配置中心加载配置信息;
S1.2)用于将加载的配置信息转化为。
7.根据权利要求5所述的方法,其特征在于,所述S2)的具体为:
S2.1)以处理链子单元作为执行入口,处理链子单元根据剩余的各个处理子单元的定义确认各个处理子单元的调用逻辑,完成处理策略;
S2.2)将各个处理子单元进行初始化,执行引擎初始化完。
8.根据权利要求5所述的方法,其特征在于,所述S3)的具体为:
S3.1)将待加工数据作为输入数据流传入处理链子单元中,处理链子单元将数据缓存在原数据缓存区,
S3.2)执行引擎根据处理策略对数据缓存区的数据加工处理,
S3.3)执行过程中,将加工生成的数据存储在加工数据缓存区,
S3.4)输出子单元输出的数据格式及数据内容。
9.一种实现如权利要求4-8任一项所述的基于规则配置的数据处理方法的信息处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求4-8任意一项所述的一种ETL中基于规则配置的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于民生科技有限责任公司,未经民生科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011539491.9/1.html,转载请声明来源钻瓜专利网。