[发明专利]大数据平台管理系统、方法、设备和存储介质在审
申请号: | 202111355264.5 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114020751A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 刘晓江 | 申请(专利权)人: | 河北幸福消费金融股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242;G06F16/25;G06F16/28 |
代理公司: | 北京三环同创知识产权代理有限公司 11349 | 代理人: | 邵毓琴;赵勇 |
地址: | 050051 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 平台 管理 系统 方法 设备 存储 介质 | ||
本发明提供了一种大数据平台管理系统、方法、设备和存储介质。所述系统包括:初始化模块,用于获取抽数配置文件、标准化配置;数据抽取模块,用于基于抽数配置文件读取源表的全量数据或增量数据并存储至缓冲层的物理表;数据转换模块,用于在将所述缓冲层的数据加载至基础层时,根据标准化配置自动进行日期格式化和/或码值转换;数据加载模块,用于根据加载脚本将所述缓冲层的数据自动加载至基础层。本发明的大数据平台管理系统中,数据抽取模块自动根据抽数配置文件获取源表数据,数据转换模块自动进行日期格式化和码值转换,数据加载模块将缓冲层的数据自动加载至基础层,不仅节约人工成本,降低了出错率,同时极大提升了ETL工作效率。
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种大数据平台管理系统、方法、设备和存储介质。
背景技术
ETL系统是大数据平台中的关键系统,承载了数据抽取(E)、转换(T)、加载(L)、调度等大量烦杂工作。市场上虽有诸多ETL工具,但当前市场上常见的ETL工具仅关注于单项功能的完成,并且缺少对ETL及调度的自动化、统一管理,需要用户手动进行大量ETL工作。而各行业的大数据平台建设中近80%的工作量集中于ETL,致使大数据平台建设中ETL工作存在效率低下、易错等重大风险。
更为具体而言,现有的ETL工具存在下述几个方面的问题:
(1)在数据抽取方面,各类数据抽取前需要做较多的准备工作(如:了解源表结构、在数据中台或数据仓库中创建目标表(缓冲层的物理表)、建立字段映射关系等),大批量接入业务系统表时(如:接入上千张表),需要耗费大量人工,不仅数据抽取效率低,而且易出错;
(2)在数据转换方面,数据标准化、格式化困难,码值分散于各类脚本中,难以管理;
(3)在数据加载方面,根据不同的数据存储策略,每个表都需要编写加载脚本,源表数据结构变化时,加载脚本也需手动修改,因此维护成本高;
(4)在调度方面,通过手工配置和维护调度,面对依赖关系复杂的调度时常出错,导致跑批失败。
发明内容
为解决上述现有技术存在的问题或部分问题,本发明实施方式提供了一种大数据平台管理系统、方法、设备和存储介质,根据抽数配置文件自动获取源表数据,自动进行日期格式化和码值转换,并自动将缓冲层的数据自动加载至基础层的物理表,而不需要大量的人工配置,不仅节约了人工成本,降低了出错率,同时极大提升ETL工作的效率。
根据本发明的第一方面,本发明实施方式提供了一种大数据平台管理系统,其包括:初始化模块,用于获取抽数配置文件、标准化配置;数据抽取模块,用于基于所述抽数配置文件读取源表的全量数据或增量数据并存储至缓冲层的物理表;数据转换模块,用于在将所述缓冲层的数据加载至基础层时,根据所述标准化配置自动进行日期格式化和/或码值转换;数据加载模块,用于根据加载脚本将所述缓冲层的数据自动加载至基础层的物理表。
根据本发明上述实施方式,通过数据抽取模块自动根据抽数配置文件获取源表数据,通过数据转换模块自动进行日期格式化和码值转换,通过数据加载模块自动将缓冲层的数据自动加载至基础层的物理表,不需要大量的人工配置,减少人工成本,降低出错率,能够极大提升ETL工作的效率。
在本发明的一些实施方式中,初始化模块根据业务需求确定待抽取入数据仓库的业务表,根据所述业务表的表结构确定抽取策略和加载策略,其中,所述业务表的业务表名、抽取策略和加载策略构成抽数配置信息;初始化模块将所述抽数配置信息填写入配置模板,以生成所述抽数配置文件。
在本发明的一些实施方式中,所述初始化模块还用于执行下述操作:根据所述抽数配置文件自动获取源表的数据结构,并自动创建元数据信息、缓冲层的物理表与基础层的物理表之间的依赖关系;根据所述元数据信息自动创建缓冲层的物理表、基础层的物理表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北幸福消费金融股份有限公司,未经河北幸福消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111355264.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种描述滩区洪水演进特征的方法
- 下一篇:一种GIF文件解码的方法和设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置