[发明专利]一种用于大数据统计分析的增量数据同步的方法有效
申请号: | 201910949695.0 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110727684B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 刘传涛;胡清 | 申请(专利权)人: | 浪潮软件股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 271000 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 大数 据统计 分析 增量 数据 同步 方法 | ||
1.一种用于大数据统计分析的增量数据同步的方法,其特征在于,
利用Apache NiFi从分布式数据库HBase中,以Apache Phoenix作为二级索引,将增量数据通过Spark同步至数据仓库Hive分区表中,实现数据仓库Hive数据以不同分区同步更新的功能;
具体步骤如下:
1)在HBase中创建增量表,用于存放增量数据,并设置操作日期字段;
2)配置Phoenix,并创建Phoenix映射表,作为增量数据表的二级索引表;
3)为分区字段创建Phoenix索引,用于Spark取增量数据;
4)配置NiFi流程,将增量数据实时接入HBase中;
5)NiFi采集数据源包含Oracle、Mysql;
6)按照业务分类创建Hive分区表,分区字段同步骤3)中分区字段,字段同HBase中增量表字段;
7)启动Spark程序,通过Phoenix读取HBase的增量数据,按操作时间定时读取增量数据;
8)Spark通过Phoenix获取HBase的增量数据后,按照分区字段将数据分组;
9)根据步骤8),根据分区字段的值获取Hive中对应整个分区的数据;
10)根据步骤9),将Hive中获取到的分区数据中删除步骤8)中对应的HBase中增量数据一致的数据;
11)将步骤8)中从Phoenix中获取到HBase的增量数据合并到步骤10)Hive分区数据中;
12)将步骤11)中的合并结果存入Hive临时表;
13)删除步骤9)中对应的整个分区的数据;
14)将步骤12)中Hive临时表的数据写入Hive分区表;
15)删除步骤12)的Hive临时表;
16)删除步骤7)中在HBase中存放的本次处理的增量数据。
2.根据权利要求1所述的方法,其特征在于,
在HBase中创建增量表,在HBase增量表中设置字段操作日期。
3.根据权利要求2所述的方法,其特征在于,
为HBase创建Phoenix映射表,Phoenix映射表创建分区列字段索引。
4.根据权利要求3所述的方法,其特征在于,
Spark根据获取到的增量数据的分区字段值,访问Hive获取到Hive对应分区的全量数据。
5.根据权利要求4所述的方法,其特征在于,
将Spark内存计算HBase增量数据和Hive分区数据合并,并将Spark合并计算后的结果数据写入到Hive临时表中。
6.根据权利要求5所述的方法,其特征在于,
通过Spark将Hive合并计算所对应的分区数据删除,并将Hive临时表中的数据写入对应的分区中。
7.根据权利要求6所述的方法,其特征在于,
删除Hive临时表数据,通过Spark将同步完成的HBase增量数据删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910949695.0/1.html,转载请声明来源钻瓜专利网。