[发明专利]一种完全基于分布式内存计算的ETL系统及其方法在审
申请号: | 201810090048.4 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108304538A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 陈涛;黄卓凡;张志聪;李笋;林志广 | 申请(专利权)人: | 广东奡风科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 东莞市神州众达专利商标事务所(普通合伙) 44251 | 代理人: | 陈世洪 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流程引擎 元数据管理模块 控制文件 内存计算 元数据 数据抽取模块 数据处理模块 数据输出模块 数据整合模块 数据管理 读取 数据加工 系统架构 作业节点 低层 分层 输出 高层 | ||
1.一种完全基于分布式内存计算的ETL系统,其特征在于:本系统包括数据抽取模块、数据处理模块、数据整合模块、数据输出模块、元数据管理模块5大功能模块和一个ETL作业流程引擎;其中,数据抽取模块抽取源数据,并根据数据分块规则在分布节点上动态生成多个Spark DataFrame,再通过线程池启动多个线程来调用数据处理模块对每个SparkDataFrame进行并行处理;数据处理模块,读取数据抽取模块生成的Spark DataFrame,经过元数据匹配检查和数据转换,得到中转数据;数据整合模块,对当天的中转数据和上一天的整合数据进行全量数据整合或历史数据整合,得到整合数据;数据输出模块,根据数据应用系统对数据格式的要求,对当天整合数据进行格式转换并输出;元数据管理模块,将系统各种要素进行参数化定义和管理,并输出元数据控制文件供ETL作业流程引擎使用;ETL作业流程引擎,读取元数据控制文件,采用广度优先搜索算法对元数据定义的ETL作业流程图进行解析,根据各节点的依赖关系,计算各节点所处的层数,并将各作业节点按层数进行分层;ETL作业流程引擎按照由低层到高层的执行路径依次运行各层的ETL作业,最终完成ETL作业流程图中所有ETL作业的执行。
2.根据权利要求1所述的一种完全基于分布式内存计算的ETL系统,其特征在于:数据抽取模块包括数据接入模块和第一分布式数据集生成模块。
3.根据权利要求2所述的一种完全基于分布式内存计算的ETL系统,其特征在于:数据接入模块是接口层,是本系统连接数据源的统一数据通道,通过该通道能够高并发、高可靠地抽取源数据;数据接入模块支持离线抽取和在线抽取两种数据抽取方式; 第一分布式数据集生成模块通过数据接入模块读取源数据,并根据数据分块规则在分布节点上动态生成多个Spark DataFrame,待数据处理模块进一步处理。
4.根据权利要求1所述的一种完全基于分布式内存计算的ETL系统,其特征在于:数据处理模块包括数据检查模块和数据转换模块。
5.根据权利要求4所述的一种完全基于分布式内存计算的ETL系统,其特征在于:数据检查模块是通过元数据匹配对数据进行检查并生成检查报告; 数据转换模块是在数据检查之后,紧接着进行数据的清理和转换,功能包括:编码转换、数据格式化、增加字段、按表达式转换。
6.根据权利要求1 所述的一种完全基于分布式内存计算的ETL系统,其特征在于:数据整合模块包括第二分布式数据集生成模块、全量数据整合模块和历史数据整合模块。
7.根据权利要求6所述的一种完全基于分布式内存计算的ETL系统,其特征在于:第二分布式数据集生成模块分别读取当天的中转数据和上一天的整合数据,在分布式节点上生成对应的Spark DataFrame;全量数据整合模块读取当天的中转数据Spark DataFrame,根据中转数据中的增、删、改标识,相应对上一天的整合数据Spark DataFrame中相同健值的数据进行增、删、改操作,其中删除只做逻辑删除,删除标识置为‘1’;处理完成后,得到最新全量数据;历史数据整合模块读取当天的中转数据Spark DataFrame,根据中转数据中的增、删、改标识,对上一天的整合数据Spark DataFrame中相同健值的数据做相应处理,删标识的,给数据的删除标识置为‘1’,失效日期置为源数据日期的前一天;增标识的,新增一条数据,生效日期置为源数据日期,失效日期置为‘9999-01-01’;改标识的,修改最近一条数据内容,失效日期置为源数据日期的前一天,并新增一条数据,生效日期置为源数据日期,失效日期置为‘9999-01-01’;处理完成后,得到最新历史数据。
8.根据权利要求1所述的一种完全基于分布式内存计算的ETL系统,其特征在于:数据输出模块包括第三分布式数据集生成模块和目标数据输出模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东奡风科技股份有限公司,未经广东奡风科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810090048.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:截留用户留言的方法和系统
- 下一篇:人才数据库建立方法、装置及存储介质