[发明专利]ETL数据处理系统及方法在审
申请号: | 201710817538.5 | 申请日: | 2017-09-12 |
公开(公告)号: | CN110019446A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陈怀亮;颜冰 | 申请(专利权)人: | 上海酷服信息科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 邓文武 |
地址: | 200433 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据抽取模块 数据处理系统 数据转换模块 数据装载模块 公式计算 数据结构 驱动 计算结果存储 读取 格式化数据 目标数据库 处理模块 生成模块 生成数据 数据脚本 数据驱动 文本驱动 字段计算 数据处理 单目标 单数据 脚本 字段 引擎 配置 | ||
1.ETL数据处理系统,其特征是包括数据抽取模块、数据转换模块、数据装载模块,所述数据抽取模块抽取数据源后根据设定的抽取规则格式化数据,所述数据转换模块根据配置的公式获取数据后转换计算为数据结果,所述数据装载模块批量加载数据结果至数据库;
所述数据抽取模块包括Excel文件驱动、XML驱动、DBF驱动、文本驱动,所述数据抽取模块调用所述Excel文件驱动、XML驱动、DBF驱动、文本驱动中的一种读取数据源后格式化数据,
所述数据转换模块包括单数据源处理模块、单目标字段计算模块、公式计算引擎,所述数据转换模块根据设定配置调用公式引擎读取格式化数据后通过公式计算目标字段值,得到结构化处理结果,
所述数据装载模块包括数据脚本生成模块,所述数据装载模块通过所述数据脚本生成模块将结构化处理结果处理成批量数据脚本后提交给目标数据库。
2.根据权利要求1所述的ETL数据处理系统,其特征在于,所述ETL数据处理系统还包括ETL规则配置模块,所述ETL规则配置模块包括数据源配置模块、数据转换规则配置模块、数据刷洗规则配置模块,所述数据源配置模块配置数据源类型、数据格式化规则、数据格式化规则与数据库表间的映射关系,所述数据转换规则配置模块配置数据源取数规则、数据源数据与数据字段间的转换逻辑关系、公式规则,所述数据刷洗规则配置模块配置数据库表刷洗数据规则。
3. ETL数据处理方法,所述ETL数据处理方法基于ETL数据处理系统,所述ETL数据处理系统包括数据抽取模块、数据转换模块、数据装载模块,所述数据抽取模块包括Excel文件驱动、XML驱动、DBF驱动、文本驱动,所述数据转换模块包括单数据源处理模块、单目标字段计算模块、公式计算引擎,所述数据装载模块包括数据脚本生成模块,其特征是包括步骤:
⑴系统获取导入ETL规则配置;
⑵数据抽取模块根据导入配置调用对应的数据源驱动,读取数据源,格式化数据;
⑶数据转换模块根据导入配置处理各目标字段,根据公式调用公式引擎读取格式化数据中的数据内容,通过公式计算目标字段值;
⑷系统将计算结果放入结果队列,处理过程信息放入日志结构队列;
⑸数据装载模块根据目标数据库的配置将结果队列处理成批量数据脚本,提交给目标数据库,记录处理结果。
4.根据权利要求3所述的ETL数据处理方法,其特征在于,公式计算引擎包括步骤:
⑴公式读取;
⑵公式解析;
⑶参数、计算符入栈;
⑷解析完毕进行出栈调用函数库计算;
⑸返回计算结果。
5.根据权利要求3所述的ETL数据处理方法,其特征在于,数据转换模块进行单数据源处理的步骤:
⑴获取数据源数据处理规则;
⑵读取数据源单笔已格式化数据;
⑶逐字段计算处理数据;
⑷得到结构化处理结果;
⑸循环操作步骤⑵~⑷。
6.根据权利要求3所述的ETL数据处理方法,其特征在于,数据转换模块进行单目标字段计算的步骤:
⑴获取目标字段转换配置信息;
⑵读取抽取的格式化数据;
⑶根据取数公式取得原始数据片段;
⑷根据公式组装、计算原始数据;
⑸生成目标字段数据;
⑹循环操作步骤⑴~⑸。
7.根据权利要求3所述的ETL数据处理方法,其特征在于,所述数据抽取模块、数据装载模块是可写入扩展模块,系统的驱动库可写入多种格式数据驱动。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海酷服信息科技有限公司,未经上海酷服信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710817538.5/1.html,转载请声明来源钻瓜专利网。