[发明专利]一种用于大数据统计分析的增量数据同步的方法有效

专利信息
申请号: 201910949695.0 申请日: 2019-10-08
公开(公告)号: CN110727684B 公开(公告)日: 2023-07-25
发明(设计)人: 刘传涛;胡清 申请(专利权)人: 浪潮软件股份有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/23;G06F16/27
代理公司: 济南信达专利事务所有限公司 37100 代理人: 阚恭勇
地址: 271000 山东省*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 大数 据统计 分析 增量 数据 同步 方法
【权利要求书】:

1.一种用于大数据统计分析的增量数据同步的方法,其特征在于,

利用Apache NiFi从分布式数据库HBase中,以Apache Phoenix作为二级索引,将增量数据通过Spark同步至数据仓库Hive分区表中,实现数据仓库Hive数据以不同分区同步更新的功能;

具体步骤如下:

1)在HBase中创建增量表,用于存放增量数据,并设置操作日期字段;

2)配置Phoenix,并创建Phoenix映射表,作为增量数据表的二级索引表;

3)为分区字段创建Phoenix索引,用于Spark取增量数据;

4)配置NiFi流程,将增量数据实时接入HBase中;

5)NiFi采集数据源包含Oracle、Mysql;

6)按照业务分类创建Hive分区表,分区字段同步骤3)中分区字段,字段同HBase中增量表字段;

7)启动Spark程序,通过Phoenix读取HBase的增量数据,按操作时间定时读取增量数据;

8)Spark通过Phoenix获取HBase的增量数据后,按照分区字段将数据分组;

9)根据步骤8),根据分区字段的值获取Hive中对应整个分区的数据;

10)根据步骤9),将Hive中获取到的分区数据中删除步骤8)中对应的HBase中增量数据一致的数据;

11)将步骤8)中从Phoenix中获取到HBase的增量数据合并到步骤10)Hive分区数据中;

12)将步骤11)中的合并结果存入Hive临时表;

13)删除步骤9)中对应的整个分区的数据;

14)将步骤12)中Hive临时表的数据写入Hive分区表;

15)删除步骤12)的Hive临时表;

16)删除步骤7)中在HBase中存放的本次处理的增量数据。

2.根据权利要求1所述的方法,其特征在于,

在HBase中创建增量表,在HBase增量表中设置字段操作日期。

3.根据权利要求2所述的方法,其特征在于,

为HBase创建Phoenix映射表,Phoenix映射表创建分区列字段索引。

4.根据权利要求3所述的方法,其特征在于,

Spark根据获取到的增量数据的分区字段值,访问Hive获取到Hive对应分区的全量数据。

5.根据权利要求4所述的方法,其特征在于,

将Spark内存计算HBase增量数据和Hive分区数据合并,并将Spark合并计算后的结果数据写入到Hive临时表中。

6.根据权利要求5所述的方法,其特征在于,

通过Spark将Hive合并计算所对应的分区数据删除,并将Hive临时表中的数据写入对应的分区中。

7.根据权利要求6所述的方法,其特征在于,

删除Hive临时表数据,通过Spark将同步完成的HBase增量数据删除。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910949695.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top