[发明专利]数据仓库建设方法、装置、系统、电子设备及存储介质在审
申请号: | 202110906349.1 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113742325A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 郭照阳;万友先;曹杰;林杰聪 | 申请(专利权)人: | 广州市易工品科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/28 |
代理公司: | 广州智斧知识产权代理事务所(普通合伙) 44649 | 代理人: | 孔德超 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据仓库 建设 方法 装置 系统 电子设备 存储 介质 | ||
1.一种数据仓库建设方法,其特征在于,包括:
构建数据仓库,对所述数据仓库进行分层,在所述数据仓库的各层中分步完成对数据的ETL操作,所述数据仓库包括数据准备层、数据明细层、数据汇总层、数据集市层以及数据应用层;
通过数据准备层获取业务系统的相关数据,所述数据准备层的物理模型与业务系统模型一致;
通过数据明细层对数据准备层获取的增量数据进行融合,生成原始全量数据,根据需要做成拉链表;
通过数据汇总层对所述原始全量数据进行清洗和转换,汇总聚合成数据汇总层数据;
通过数据集市层将所述原始全量数据和数据汇总层数据进行粗粒度聚合,按照业务需求对事实进行拉宽形成宽表;
通过数据应用层对所述原始全量数据、数据汇总层数据以及宽表进行粗粒度聚合汇总,以获取业务需要的事实数据;
通过数据应用层将所述事实数据同步至其他服务库。
2.根据权利要求1所述的数据仓库建设方法,其特征在于,通过数据准备层获取业务系统的相关数据,包括:
实时采集MySQL中的binlog的日志到Kafka中,映射Kafka中的topic数据至所述数据准备层;
在所述数据准备层中,对获取的业务系统的相关数据不做清洗或/和转换,所述数据准备层的表与topic数据一一对应,所述相关数据包括业务系统的源数据、日志和爬虫数据。
3.根据权利要求1所述的数据仓库建设方法,其特征在于,数据明细层不对原始全量数据进行清洗或/和转换;所述拉链表记录每条信息的生命周期,且所述拉链表只记录发生变化的数据。
4.根据权利要求3所述的数据仓库建设方法,其特征在于,所述拉链表的表名带有his标志,使用dwd_start_date代表每条信息的有效开始数据,使用dwd_end_date代表每条信息的有效结束数据,ygpdw_active代表每条信息在数据仓库中是否有效。
5.根据权利要求1所述的数据仓库建设方法,其特征在于,为所述ETL设置SQL脚本模板,所述SQL脚本对应一个表,所述SQL脚本的脚本名即表名;在所述SQL脚本模板中,使用INPUT_TABLE表示依赖表,OUTPUT_TABLE表示结果表,每个SQL脚本的注释中带建表语句。
6.根据权利要求1所述的数据仓库建设方法,其特征在于,所述数据仓库还包括DIM层,所述DIM层中的每个表包含了事实表中指定属性的相关详细信息。
7.一种数据仓库建设装置,其特征在于,其包括:
构建单元,用于构建数据仓库,对所述数据仓库进行分层,在所述数据仓库的各层中分步完成对数据的ETL操作,所述数据仓库包括数据准备层、数据明细层、数据汇总层、数据集市层以及数据应用层;
抽取单元,用于通过数据准备层获取业务系统的相关数据,所述数据准备层的物理模型与业务系统模型一致;
拉链表生成单元,用于通过数据明细层对数据准备层获取的增量数据进行融合,生成原始全量数据,根据需要做成拉链表;
转换单元,用于通过数据汇总层对所述原始全量数据进行清洗和转换,汇总聚合成数据汇总层数据;
宽表生成单元,用于通过数据集市层将所述原始全量数据和数据汇总层数据进行粗粒度聚合,按照业务需求对事实进行拉宽形成宽表;
加载单元,用于通过数据应用层对所述原始全量数据、数据汇总层数据以及宽表进行粗粒度聚合汇总,以获取业务需要的事实数据;
输出单元,用于通过数据应用层将所述事实数据同步至其他服务库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市易工品科技有限公司,未经广州市易工品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110906349.1/1.html,转载请声明来源钻瓜专利网。