[发明专利]一种快速扫描HBase分区表的方法、装置、系统在审
申请号: | 202010188346.4 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111427887A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 刘智鑫;蔡苗;陈震宇;刘国华 | 申请(专利权)人: | 中国邮政储蓄银行股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F3/06 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 顾友 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 扫描 hbase 分区表 方法 装置 系统 | ||
1.一种快速扫描HBase分区表的方法,其特征在于,所述方法包括:
对HBase数据表进行预分区以得到若干个物理分区;
按照所述物理分区的数量对Spark的RDD进行分区,得到与所述物理分区的数量相同的逻辑分区,并建立与所述物理分区之间的映射关系以使得每个逻辑分区映射到对应的物理分区;
在Spark运行时,为每个所述物理分区分配一个SCAN扫描对象以实现对HBase数据表的并行扫描。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为每个所述逻辑分区创建一个任务;
运行所述任务以对相应的SCAN扫描对象的扫描结果进行处理从而实现对HBase数据表的并行处理。
3.根据权利要求1所述的方法,其特征在于,对HBase数据表进行预分区以得到若干个物理分区具体包括:
计算待处理的数据量;
按照所述数据量对所述HBase数据表进行均分,得到若干个连续的物理分区。
4.根据权利要求3述的方法,其特征在于,按照所述数据量对所述HBase数据表进行均分,得到若干个连续的物理分区具体包括:
按照HBase数据表的行键所标识的范围,对HBase数据表进行均分,得到若干个连续的物理分区。
5.根据权利要求1所述的方法,其特征在于,对HBase数据表进行预分区以得到若干个物理分区具体包括:
根据历史数据变化趋势对HBase数据表进行划分,得到若干个连续的物理分区。
6.根据权利要求1~5任意一项所述的方法,其特征在于,为每个所述物理分区分配一个SCAN扫描对象具体包括:
获取每个物理分区的开始主键和结束主键;
根据每个物理分区的开始主键和结束主键,生成具有相同的开始主键和结束主键的SCAN扫描对象。
7.一种快速扫描HBase分区表的装置,其特征在于,包括:
第一分区模块,用于对HBase数据表进行预分区以得到若干个物理分区;
第二分区模块,用于按照所述物理分区的数量对Spark的RDD进行分区,得到与所述物理分区的数量相同的逻辑分区;
映射模块,用于建立与所述物理分区之间的映射关系以使得每个逻辑分区映射到对应的物理分区;
第一分配模块,用于在Spark运行时,为每个所述物理分区分配一个SCAN扫描对象以实现对HBase数据表的并行扫描。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二分配模块,用于为每个所述逻辑分区创建一个任务;
运行模块,用于运行所述任务以对相应的SCAN扫描对象的扫描结果进行处理从而实现对HBase数据表的并行处理。
9.根据权利要求7所述的装置,其特征在于,所述第一分区模块具体包括:
计算模块,用于计算待处理的数据量;
划分模块,用于按照所述数据量对所述HBase数据表进行均分,得到若干个连续的物理分区。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对HBase数据表进行预分区以得到若干个物理分区;
按照所述物理分区的数量对Spark的RDD进行分区,得到与所述物理分区的数量相同的逻辑分区,并建立与所述物理分区之间的映射关系以使得每个逻辑分区映射到对应的物理分区;
在Spark运行时,为每个所述物理分区分配一个SCAN扫描对象以实现对HBase数据表的并行扫描。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010188346.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗病毒鼻罩喷剂及其制造方法
- 下一篇:大负载AGV快充电池系统