[发明专利]Hive海量数据导入Hbase的数据加载系统及数据加载方法在审

申请号：	202210114662.6	申请日：	2022-01-30
公开（公告）号：	CN114416853A	公开（公告）日：	2022-04-29
发明（设计）人：	黄立;蓝文良	申请（专利权）人：	重庆长安汽车股份有限公司
主分类号：	G06F16/25	分类号：	G06F16/25;G06F16/182
代理公司：	重庆博凯知识产权代理有限公司 50212	代理人：	李晓兵
地址：	400020 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	hive 海量数据导入 hbase 加载系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种Hive海量数据导入Hbase的数据加载系统及数据加载方法，所述数据加载方法包括如下步骤：步骤1，通过配制在大数据离线调度系统上的Spark‑HFile生成模块读取Hive表中的待加载数据，然后采用Apache Spark分布式计算引擎将Hive表中待加载数据根据Hive表字段与Hbase表的映射配置，生成Hbase表所需的底层HFile文件，并写入指定的HDFS目录；步骤2，通过配制在大数据离线调度系统上的HFile在线数据加载模块将步骤1中HDFS目录中的HFile文件在线加载到Hbase表中，提供面向用户的业务查询服务。

技术领域

本发明属于Hbase数据库技术领域，具体涉及一种Hive海量数据导入Hbase的数据加载系统及数据加载方法。

背景技术

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库，HBase 不同于一般的关系型数据库，它是一个适合于结构化数据存储的数据库，数据工程团队常常需要将经过ETL处理的Hive海量数据导入Hbase中构建面向用户的高并发查询服务。

Hive向Hbase批量导入海量数据的业务场景如下：待写入的数据位于Hive中，业务需要定期将这部分海量数据导入Hbase中，以执行随机查询更新操作。在这种场景下如果采用建立Hive和Hbase映射表的方案，最终会调用Hbase的Put Api处理数据写入，极有可能给Hbase RegionServer节点带来较大的写入压力，造成Hbase集群不稳定，甚至RegionServer宕机，该方案存在以下问题：（1）、引起RegionServer频繁大GC，导致RegionServer节点宕机。（2）、引起ReigonServer频繁flush，进而不断压缩、分裂，影响集群稳定性。（3）、耗Hbase集群大量的CPU磁盘、带宽资源、内存资源及IO资源，与其他业务产生资源竞争。

Hbase的大批量数据写入场景一般会舍弃Put Api的方案而采用Bulkload方案，Hbase原生提供的Bulkload方案基于MapReduce计算引擎实现，MapReduce引擎是一个多进程的计算引擎，相比于多线程的分布式计算引擎Spark，计算资源消耗大，计算效率低。因此，选择Spark引擎实现Hbase的Bulkload海量数据写入可以提高计算效率，降低计算资源消耗。

如专利文献CN106897450A公开的一种基于HDFS（分布式文件系统）海量数据快速导入Hbase的方法：描述了一种基于Map-Reduce的HDFS海量数据导入Hbase方案。该方法采用Map-Reduce引擎生成HFile的方式，根据hbase的预分区个数，批量移动生成的Hbase底层数据文件，实现将数据批量导入Hbase。该方法避免了调用Hbase Put Api的集群资源消耗问题，但依旧会面临如下问题：（1）、Map-Reduce引擎基于多进程模型实现，在计算过程中，存在多次临时数据的IO操作，计算效率低。（2）、在生成HFile的过程中，Map-Reduce会通过hbase提供的默认Reduce实现根据Hbase的region数量确定生成的HFile文件个数，在计算过程中容易出现明显的数据倾斜现象，导致数据加载时间延长。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够将Hive海量数据导入Hbase中，数据导入稳定且导入速度快的数据加载方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种Hive海量数据导入Hbase的数据加载系统，包括Hive数据库和Hbase数据库，其特征在于，还包括Spark-HFile生成模块和HFile在线数据加载模块，所述Spark-HFile生成模块用于读取Hive数据库中Hive表的待加载数据，并根据Hive表字段与Hbase数据库中Hbase表的映射配置，生成Hbase表所需的底层HFile文件后，将HFile文件写入指定的HDFS目录中；所述HFile在线数据加载模块用于将Spark-HFile生成模块指定HDFS目录中的HFile在线加载到Hbase表中，提供业务查询服务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司，未经重庆长安汽车股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210114662.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于Android的音频焦点实现方法
下一篇：一种基于增强现实的车辆故障辅助维修方法、存储介质及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]Hive海量数据导入Hbase的数据加载系统及数据加载方法在审

专利文献下载