[发明专利]Hive海量数据导入Hbase的数据加载系统及数据加载方法在审
申请号: | 202210114662.6 | 申请日: | 2022-01-30 |
公开(公告)号: | CN114416853A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 黄立;蓝文良 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/182 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 李晓兵 |
地址: | 400020 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hive 海量 数据 导入 hbase 加载 系统 方法 | ||
本发明公开了一种Hive海量数据导入Hbase的数据加载系统及数据加载方法,所述数据加载方法包括如下步骤:步骤1,通过配制在大数据离线调度系统上的Spark‑HFile生成模块读取Hive表中的待加载数据,然后采用Apache Spark分布式计算引擎将Hive表中待加载数据根据Hive表字段与Hbase表的映射配置,生成Hbase表所需的底层HFile文件,并写入指定的HDFS目录;步骤2,通过配制在大数据离线调度系统上的HFile在线数据加载模块将步骤1中HDFS目录中的HFile文件在线加载到Hbase表中,提供面向用户的业务查询服务。
技术领域
本发明属于Hbase数据库技术领域,具体涉及一种Hive海量数据导入Hbase的数据加载系统及数据加载方法。
背景技术
Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,HBase 不同于一般的关系型数据库,它是一个适合于结构化数据存储的数据库,数据工程团队常常需要将经过ETL处理的Hive海量数据导入Hbase中构建面向用户的高并发查询服务。
Hive向Hbase批量导入海量数据的业务场景如下:待写入的数据位于Hive中,业务需要定期将这部分海量数据导入Hbase中,以执行随机查询更新操作。在这种场景下如果采用建立Hive和Hbase映射表的方案,最终会调用Hbase的Put Api处理数据写入,极有可能给Hbase RegionServer节点带来较大的写入压力,造成Hbase集群不稳定,甚至RegionServer宕机,该方案存在以下问题:(1)、引起RegionServer频繁大GC,导致RegionServer节点宕机。(2)、引起ReigonServer频繁flush,进而不断压缩、分裂,影响集群稳定性。(3)、耗Hbase集群大量的CPU磁盘、带宽资源、内存资源及IO资源,与其他业务产生资源竞争。
Hbase的大批量数据写入场景一般会舍弃Put Api的方案而采用Bulkload方案,Hbase原生提供的Bulkload方案基于MapReduce计算引擎实现,MapReduce引擎是一个多进程的计算引擎,相比于多线程的分布式计算引擎Spark,计算资源消耗大,计算效率低。因此,选择Spark引擎实现Hbase的Bulkload海量数据写入可以提高计算效率,降低计算资源消耗。
如专利文献CN106897450A公开的一种基于HDFS(分布式文件系统)海量数据快速导入Hbase的方法:描述了一种基于Map-Reduce的HDFS海量数据导入Hbase方案。该方法采用Map-Reduce引擎生成HFile的方式,根据hbase的预分区个数,批量移动生成的Hbase底层数据文件,实现将数据批量导入Hbase。该方法避免了调用Hbase Put Api的集群资源消耗问题,但依旧会面临如下问题:(1)、Map-Reduce引擎基于多进程模型实现,在计算过程中,存在多次临时数据的IO操作,计算效率低。(2)、在生成HFile的过程中,Map-Reduce会通过hbase提供的默认Reduce实现根据Hbase的region数量确定生成的HFile文件个数,在计算过程中容易出现明显的数据倾斜现象,导致数据加载时间延长。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够将Hive海量数据导入Hbase中,数据导入稳定且导入速度快的数据加载方法。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种Hive海量数据导入Hbase的数据加载系统,包括Hive数据库和Hbase数据库,其特征在于,还包括Spark-HFile生成模块和HFile在线数据加载模块,所述Spark-HFile生成模块用于读取Hive数据库中Hive表的待加载数据,并根据Hive表字段与Hbase数据库中Hbase表的映射配置,生成Hbase表所需的底层HFile文件后,将HFile文件写入指定的HDFS目录中;所述HFile在线数据加载模块用于将Spark-HFile生成模块指定HDFS目录中的HFile在线加载到Hbase表中,提供业务查询服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210114662.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置