[发明专利]一种快速扫描HBase分区表的方法、装置、系统在审

专利信息
申请号: 202010188346.4 申请日: 2020-03-17
公开(公告)号: CN111427887A 公开(公告)日: 2020-07-17
发明(设计)人: 刘智鑫;蔡苗;陈震宇;刘国华 申请(专利权)人: 中国邮政储蓄银行股份有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2455;G06F3/06
代理公司: 北京市万慧达律师事务所 11111 代理人: 顾友
地址: 100032*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 扫描 hbase 分区表 方法 装置 系统
【说明书】:

本申请实施例公开一种快速扫描HBase分区表的方法、装置、系统,方法包括:对HBase数据表进行预分区以得到若干个物理分区;按照物理分区的数量对Spark的RDD进行分区,得到与物理分区的数量相同的逻辑分区,并建立与物理分区之间的映射关系以使得每个逻辑分区映射到对应的物理分区;在Spark运行时,为每个物理分区分配一个SCAN扫描对象以实现对HBase数据表的并行扫描。本申请针对HBase数据表进行预分区,并为每个HBase数据表的预分区建立一个SCAN扫描对象,从而可以并行读取每个分区的数据,快速扫描HBase的分区表。

技术领域

发明属于计算机技术领域,尤其涉及一种快速扫描HBase分区表的方法、装置、系统。

背景技术

HBase作为分布式的NoSQL数据库,底层采用KV的存储结构,其中的Key键在HBase中是按照顺序存储的,合理地设置主键索引可以快速地实现单条数据的查询需求。在实际应用中,除了查询单条数据的应用场景外,用户可能还需要扫描整个HBase的数据表,实现表扫描的操作,但是索引对于表扫描操作起不到加速辅助的作用。

通常情况下,表扫描操作需要从开始到结尾实现全表的过滤查询需求,可能涉及到指标的Count统计、Sum求和等具体的聚合操作,也可能涉及到全表数据的逐条读取操作。HBase目前主要支持GET和SCAN两种操作从数据表中获取数据,GET对象用于获取单条记录数据,SCAN扫描对象用于扫描指定范围内的数据。

目前,Spark客户端在读取HBase数据表中数据的时候,主要是以扫描的方式获取表中数据,通常只是生成一个SCAN扫描对象,但是该SCAN扫描对象却需要按照顺序逐步地扫描所有的HBase的数据表的Region分区,导致扫描速度很缓慢。因此目前的方法不能够很好地使用Spark的分布式处理能力,也没有充分地使用好HBase中数据表分区Region的理念。

发明内容

为了解决现有技术的问题,本发明提出了一种快速扫描HBase分区表的方法、装置、系统,本方法在扫描HBase中的预分区表时,Spark客户端可以针对每个Region分区建立一个SCAN扫描对象,然后并行地去读取每个分区的数据,快速扫描HBase的分区表。

本发明实施例提供的具体技术方案如下:

第一方面,本发明提供一种快速扫描HBase分区表的方法,所述方法包括:

对HBase数据表进行预分区以得到若干个物理分区;

按照所述物理分区的数量对Spark的RDD进行分区,得到与所述物理分区的数量相同的逻辑分区,并建立与所述物理分区之间的映射关系以使得每个逻辑分区映射到对应的物理分区;

在Spark运行时,为每个所述物理分区分配一个SCAN扫描对象以实现对HBase数据表的并行扫描。

优选的,所述方法还包括:

为每个所述逻辑分区创建一个任务;

运行所述任务以对相应的SCAN扫描对象的扫描结果进行处理从而实现对HBase数据表的并行处理。

优选的,对HBase数据表进行预分区以得到若干个物理分区具体包括:

计算待处理的数据量;

按照所述数据量对所述HBase数据表进行均分,得到若干个连续的物理分区。

优选的,按照所述数据量对所述HBase数据表进行均分,得到若干个连续的物理分区具体包括:

按照HBase数据表的行键所标识的范围,对HBase数据表进行均分,得到若干个连续的物理分区。优选的,对HBase数据表进行预分区以得到若干个物理分区具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010188346.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top