[发明专利]Hive海量数据导入Hbase的数据加载系统及数据加载方法在审

专利信息
申请号: 202210114662.6 申请日: 2022-01-30
公开(公告)号: CN114416853A 公开(公告)日: 2022-04-29
发明(设计)人: 黄立;蓝文良 申请(专利权)人: 重庆长安汽车股份有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/182
代理公司: 重庆博凯知识产权代理有限公司 50212 代理人: 李晓兵
地址: 400020 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: hive 海量 数据 导入 hbase 加载 系统 方法
【说明书】:

本发明公开了一种Hive海量数据导入Hbase的数据加载系统及数据加载方法,所述数据加载方法包括如下步骤:步骤1,通过配制在大数据离线调度系统上的Spark‑HFile生成模块读取Hive表中的待加载数据,然后采用Apache Spark分布式计算引擎将Hive表中待加载数据根据Hive表字段与Hbase表的映射配置,生成Hbase表所需的底层HFile文件,并写入指定的HDFS目录;步骤2,通过配制在大数据离线调度系统上的HFile在线数据加载模块将步骤1中HDFS目录中的HFile文件在线加载到Hbase表中,提供面向用户的业务查询服务。

技术领域

本发明属于Hbase数据库技术领域,具体涉及一种Hive海量数据导入Hbase的数据加载系统及数据加载方法。

背景技术

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,HBase 不同于一般的关系型数据库,它是一个适合于结构化数据存储的数据库,数据工程团队常常需要将经过ETL处理的Hive海量数据导入Hbase中构建面向用户的高并发查询服务。

Hive向Hbase批量导入海量数据的业务场景如下:待写入的数据位于Hive中,业务需要定期将这部分海量数据导入Hbase中,以执行随机查询更新操作。在这种场景下如果采用建立Hive和Hbase映射表的方案,最终会调用Hbase的Put Api处理数据写入,极有可能给Hbase RegionServer节点带来较大的写入压力,造成Hbase集群不稳定,甚至RegionServer宕机,该方案存在以下问题:(1)、引起RegionServer频繁大GC,导致RegionServer节点宕机。(2)、引起ReigonServer频繁flush,进而不断压缩、分裂,影响集群稳定性。(3)、耗Hbase集群大量的CPU磁盘、带宽资源、内存资源及IO资源,与其他业务产生资源竞争。

Hbase的大批量数据写入场景一般会舍弃Put Api的方案而采用Bulkload方案,Hbase原生提供的Bulkload方案基于MapReduce计算引擎实现,MapReduce引擎是一个多进程的计算引擎,相比于多线程的分布式计算引擎Spark,计算资源消耗大,计算效率低。因此,选择Spark引擎实现Hbase的Bulkload海量数据写入可以提高计算效率,降低计算资源消耗。

专利文献CN106897450A公开的一种基于HDFS(分布式文件系统)海量数据快速导入Hbase的方法:描述了一种基于Map-Reduce的HDFS海量数据导入Hbase方案。该方法采用Map-Reduce引擎生成HFile的方式,根据hbase的预分区个数,批量移动生成的Hbase底层数据文件,实现将数据批量导入Hbase。该方法避免了调用Hbase Put Api的集群资源消耗问题,但依旧会面临如下问题:(1)、Map-Reduce引擎基于多进程模型实现,在计算过程中,存在多次临时数据的IO操作,计算效率低。(2)、在生成HFile的过程中,Map-Reduce会通过hbase提供的默认Reduce实现根据Hbase的region数量确定生成的HFile文件个数,在计算过程中容易出现明显的数据倾斜现象,导致数据加载时间延长。

发明内容

针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够将Hive海量数据导入Hbase中,数据导入稳定且导入速度快的数据加载方法。

为了解决上述技术问题,本发明采用了如下的技术方案:

一种Hive海量数据导入Hbase的数据加载系统,包括Hive数据库和Hbase数据库,其特征在于,还包括Spark-HFile生成模块和HFile在线数据加载模块,所述Spark-HFile生成模块用于读取Hive数据库中Hive表的待加载数据,并根据Hive表字段与Hbase数据库中Hbase表的映射配置,生成Hbase表所需的底层HFile文件后,将HFile文件写入指定的HDFS目录中;所述HFile在线数据加载模块用于将Spark-HFile生成模块指定HDFS目录中的HFile在线加载到Hbase表中,提供业务查询服务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210114662.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top