[发明专利]一种用于大数据统计分析的增量数据同步的方法有效

申请号：	201910949695.0	申请日：	2019-10-08
公开（公告）号：	CN110727684B	公开（公告）日：	2023-07-25
发明（设计）人：	刘传涛;胡清	申请（专利权）人：	浪潮软件股份有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/23;G06F16/27
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	271000 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于大数据统计分析增量数据同步方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种用于大数据统计分析的增量数据同步的方法，属于大数据中增量数据同步技术领域，本发明利用Apache NiFi从分布式数据库HBase中，以Apache Phoenix作为二级索引，将增量数据通过Spark同步至数据仓库Hive中，实现数据仓库Hive数据以不同分区同步更新的功能，并且不影响Spark+Hive统计分析的性能。

技术领域

本发明涉及大数据中增量数据同步技术，尤其涉及一种用于大数据统计分析的增量数据同步的方法。

背景技术

随着大数据的不断深入应用，对大数据的要求也越来越高。对原始数据的采集要求越全面越及时越好，对于采集来的原始数据的统计分析，要求数据越全面越好，原始数据采集越及时统计分析越准确。对于数据的统计分析，原始数据及时准确的采集显得尤为重要。

实际应用过程中，原始数据的更新对数据统计分析的过程造成了很大的障碍。由于原始数据的实时增加、删除和修改形成的增量数据，如果不能及时有效的同步到统计分析的数据库中，就会造成统计分析的结果不够及时和准确。

目前对于大数据的统计分析的性能，业内公认度最高的当属Spark+Hive性能最好。因为Spark提供了基于内存的分布式计算框架，加上Hive的Parquet高压缩性能的存储数据，使得统计分析的性能高于其他相关大数据计算性能的10-100 倍以上。该方案有着至高的统计分析性能优越性，但也有其不足的一面。该方案不支持事务，无法实现原始数据的增删改，所有数据均以新增的方式进入数据库，给统计分析带来了麻烦，需要将重复数据过滤掉，然后再执行统计。Hive的事务表可以实现数据的更新修改，但是官方已不再推荐使用，并且Hive的事务表统计分析的性能大打折扣。HBase分布式面向列的数据库有较强的随机读写能力，可以实现原始数据的增删改，通过Rowkey可以保证数据的唯一性，但是HBase统计分析的性能却不能胜任。

目前业界既能满足较高统计分析性能又能兼顾事务实现数据的增删改，尚没有成熟的可供使用的方案。

发明内容

为了解决以上技术问题，本发明提出了一种用于大数据统计分析的增量数据同步的方法，达到统计分析数据的快速同步，从而使得数据统计分析更加及时有效，统计分析结果更加精准。

本发明的技术方案是：

利用Apache NiFi从分布式数据库HBase中，以Apache Phoenix作为二级索引，将增量数据通过Spark同步至数据仓库Hive中，实现数据仓库Hive数据以不同分区同步更新的功能，并且不影响Spark+Hive统计分析的性能。

在HBase中创建增量表还包括HBase增量表中设置字段操作日期。

还包括为HBase创建Phoenix映射表。

还包括Phoenix映射表创建分区列字段索引。

还包括创建Hive分区表存放全量数据。

通过Spark访问Phoenix获取HBase增量数据，还包括Spark根据获取到的增量数据的分区字段值，访问Hive获取到Hive对应分区的全量数据。

还包括Spark内存计算HBase增量数据和Hive分区数据合并。

还包括将Spark合并计算后的结果数据写入到Hive临时表中。