[发明专利]一种用于大数据统计分析的增量数据同步的方法有效

申请号：	201910949695.0	申请日：	2019-10-08
公开（公告）号：	CN110727684B	公开（公告）日：	2023-07-25
发明（设计）人：	刘传涛;胡清	申请（专利权）人：	浪潮软件股份有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/23;G06F16/27
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	271000 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于大数据统计分析增量数据同步方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于大数据统计分析的增量数据同步的方法，其特征在于，

利用Apache NiFi从分布式数据库HBase中，以Apache Phoenix作为二级索引，将增量数据通过Spark同步至数据仓库Hive分区表中，实现数据仓库Hive数据以不同分区同步更新的功能；

具体步骤如下：

1）在HBase中创建增量表，用于存放增量数据，并设置操作日期字段；

2）配置Phoenix，并创建Phoenix映射表，作为增量数据表的二级索引表；

3）为分区字段创建Phoenix索引，用于Spark取增量数据；

4）配置NiFi流程，将增量数据实时接入HBase中；

5）NiFi采集数据源包含Oracle、Mysql；

6）按照业务分类创建Hive分区表，分区字段同步骤3）中分区字段，字段同HBase中增量表字段；

7）启动Spark程序，通过Phoenix读取HBase的增量数据，按操作时间定时读取增量数据；

8）Spark通过Phoenix获取HBase的增量数据后，按照分区字段将数据分组；

9）根据步骤8），根据分区字段的值获取Hive中对应整个分区的数据；

10）根据步骤9），将Hive中获取到的分区数据中删除步骤8）中对应的HBase中增量数据一致的数据；

11）将步骤8）中从Phoenix中获取到HBase的增量数据合并到步骤10）Hive分区数据中；

12）将步骤11）中的合并结果存入Hive临时表；

13）删除步骤9）中对应的整个分区的数据；

14）将步骤12）中Hive临时表的数据写入Hive分区表；

15）删除步骤12）的Hive临时表；

16）删除步骤7）中在HBase中存放的本次处理的增量数据。

2.根据权利要求1所述的方法，其特征在于，

在HBase中创建增量表，在HBase增量表中设置字段操作日期。

3.根据权利要求2所述的方法，其特征在于，

为HBase创建Phoenix映射表，Phoenix映射表创建分区列字段索引。

4.根据权利要求3所述的方法，其特征在于，

Spark根据获取到的增量数据的分区字段值，访问Hive获取到Hive对应分区的全量数据。

5.根据权利要求4所述的方法，其特征在于，

将Spark内存计算HBase增量数据和Hive分区数据合并，并将Spark合并计算后的结果数据写入到Hive临时表中。

6.根据权利要求5所述的方法，其特征在于，

通过Spark将Hive合并计算所对应的分区数据删除，并将Hive临时表中的数据写入对应的分区中。

7.根据权利要求6所述的方法，其特征在于，

删除Hive临时表数据，通过Spark将同步完成的HBase增量数据删除。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司，未经浪潮软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910949695.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载