[发明专利]一种基于协处理器的HBase二级内存索引构建方法在审
申请号: | 202010836573.3 | 申请日: | 2020-08-19 |
公开(公告)号: | CN112052240A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 娄渊胜;叶枫;朱松杰 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/2453 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 处理器 hbase 二级 内存 索引 构建 方法 | ||
本发明公开一种基于协处理器的HBase二级内存索引构建方法,包括步骤:初始化原始HBase数据表;根据原始数据表使用协处理器初始化二级索引;根据原始数据表的更新,通过协处理器数据更新二级索引并构建内存索引结构;数据表分片操作;对分片的数据表初始化二级索引并构建内存索引结构;将构建的内存索引通过内存持久化方法持久化存储到磁盘上。本发明能够实现HBase二级内存索引的构建及持久化存储,弥补了原生HBase数据库只支持通过全盘扫描的方式进行非主键查询的缺点,提高了HBase非主键检索的效率,保证了索引的可用性和容错性。
技术领域
本发明涉及一种基于协处理器的HBase二级内存索引构建方法,属于NoSQL技术优化领域,尤其涉及一种基于协处理器的HBase二级内存索引构建方法。
背景技术
随着大数据时代的到来,传统的关系型数据库难以处理无规范模式的数据集,并且随着数据集规模的增大,不能提供高效的存储和查询服务,不能满足系统的新需求。在此背景下,越来越多的大数据系统和NoSQL(Not-Only-SQL即非关系型数据库)被开发出来,HBase便是其中之一。
HBase由多个软件子系统组成,主要包括客户端、HMaster、HRegionServer、Zookeeper等,这些子系统共同组成一个分布式应用系统,它具有开源、分布式、可扩展及面向列存储的特点,能够为大数据提供随机、实时的读写访问功能。
HBase在其主键上建立了B+树索引,在使用主键进行查询时效率很高。但是,在进行非主键的条件查询时,由于缺少主键的支撑,HBase必须进行全表扫描,导致查询效率低下,无法满足上述要求,如何提高HBase的检索速度,使其支持各类查询操作,成为一个亟需解决的问题。
发明内容
发明目的:本发明提供了一种支持HBase的非主键索引的二级内存索引构建方法。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于协处理器的HBase二级内存索引构建方法,通过对原始数据表的非主键重建索引表,并将主键与非主键值形成组合关系,确保索引表主键的唯一性,构建主键索引HT树内存索引结构,并将其持久化到磁盘上;该方法包括以下步骤:
(1)初始化原始HBase数据表;
(2)通过协处理器对原始HBase数据表的非主键初始化二级索引;
(3)当HBase数据表进行更新操作时,通过协处理器更新二级索引;
(4)构建内存索引结构;
(5)当数据表超过预分片大小时,对数据表进行分片操作;
(6)分片后,初始化二级索引,并构建对应的内存索引结构;
(7)将构建的内存索引通过内存持久化方法持久化存储到磁盘上。
优选地,所述步骤(2)中,通过对原始HBase数据表的非主键和主键建立组合关系,确保建立二级索引时主键的唯一性,以支持二级索引的创建。保证索引文件和主表在同一个Regionserver上,这样可以保证在需要使用索引文件时只需与RegionServer建立一次连接就可以完成,提高了速度。
优选地,所述步骤(3)中,在数据表更新时,通过协处理器对这些变化进行监测,并将此时的二级索引实时更新。在更新操作未完成时,监听器将监听到这一事件,从而不会调用相应更新方法,索引逻辑将无法完成,保证了索引与原数据表的一致性与事件性,不会出现索引与原数据表无法匹配的情况。
优选地,所述步骤(4)中,在二级索引构建完成后,对其主键建立HT树索引结构,提高对二级索引的检索速度。通过HT树索引,可以极大提高索引的检索速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010836573.3/2.html,转载请声明来源钻瓜专利网。