[发明专利]一种基于流式数据的局部性非聚簇索引方法及系统有效
申请号: | 201510641703.7 | 申请日: | 2015-09-30 |
公开(公告)号: | CN105335475B | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 郑天祺;程学旗;张敬亮;黄淳 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;田景宜 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流式数据 哈希索引 实时更新 索引记录 索引表 索引 局部性 索引键 聚簇 写入 触发条件 存储介质 带宽开销 继续执行 局部特性 顺序扫描 随机访问 索引数据 有效地 构建 主键 查询 覆盖 访问 | ||
本发明公开了一种基于流式数据的局部性非聚簇索引方法及系统,该方法包括:实时更新步骤,实时更新哈希索引表哈希索引表中针对所接收到的每条流式数据而产生的索引记录,该索引记录记载了该流式数据中出现的索引键、该索引键首次出现时所对应的主键以及从首次出现到当前最末次出现所覆盖的数据个数;写入步骤,当达到触发条件时,将该哈希索引表中的该索引记录写入索引表中,继续执行该实时更新步骤。本发明极大地缩小了索引表的空间及构建索引表所产生的带宽开销,该索引方法将随机访问与顺序扫描结合起来,有效地利用了流式数据的时间局部特性,更符合存储介质的访问模型,提高了索引数据查询的效率。
技术领域
本发明涉及大规模数据处理领域,特别是涉及一种基于流式数据的局部性非聚簇索引方法及系统。
背景技术
目前的流式索引技术主要通过传统数据库的索引方式,实时地对每条数据建立对应的索引。
如图1所示为现有技术中的索引建立方式的示意图。
图1中左侧表为流式数据处理系统源源不断收到的流式数据,以数据表的形式进行显示,表中主键用于以时间递增的方式标识各条数据,待索引列为每条数据所携带的可供索引的数据项目,每条数据还可带有数据列等其他数据项目。
在现有技术中,为了便于检索和查询,快速定位数据,需为每条数据基于待索引的项目建立索引,目前有序索引通常利用的数据结构为B树,将索引键相同的数据插置在同一B树上,从而为数据归类,以便于检索定位。图1中右侧为索引表,如表可见索引键同为a的数据包括外键为P1、P3、P5的数据,该外键即指向数据表中的主键。可见现有技术中的索引表顺序记载了对应同一索引键的所有数据的出现位置。
目前基于有序索引的优化方案集中于对索引表的存储方式的优化,如使用优化的B树,压缩索引表,编码索引表等。
图1所述方法的缺点在于:
1、存储该索引表需占用大量空间,对于流式数据实时建立该索引表开销极大。
2、顺序扫描一段索引表将导致随机访问数据表,失去空间局部性,读取性能下降。
3、没有利用流式数据的时间局部性。
发明内容
本发明解决的技术问题在于,提出一种基于流式数据的局部性非聚簇索引方法及系统,针对流式数据,借助时间局部性进行实时索引。
为了解决以上问题,本发明公开了一种基于流式数据的局部性非聚簇索引方法,包括:
实时更新步骤,实时更新哈希索引表中针对所接收到的每条流式数据而产生的索引记录,该索引记录记载了该流式数据中出现的索引键、该索引键首次出现时所对应的主键以及从首次出现到当前最末次出现所覆盖的数据个数;
写入步骤,当达到触发条件时,将该哈希索引表中的该索引记录写入索引表中,继续执行该实时更新步骤。
该方法还包括一查询步骤,在该哈希索引表以及该索引表中分别找到索引键为待查询的索引值的全部索引记录,根据所找到的索引记录中所记载的主键,在流式数据的数据表中确认查询起点,根据索引记录中所记载的数据个数,确定查询终点,从该查询起点到查询终点所覆盖的数据中,过滤掉索引键与该索引值不符的数据。
该触发条件包括预设的触发计数以及预设的触发时长;
如果该哈希索引表中任一索引键所对应的该数据个数达到该触发计数,将该哈希索引表中该索引键所对应的索引记录写入该索引表中;
在达到该触发时长时,执行写入步骤,将该哈希索引表中所有索引记录写入该索引表中。
该写入步骤后还包括维护索引一致性步骤,每次以达到该预设的触发时长而触发该写入步骤时,存储当前最后一条数据的主键,当发生系统重启时,从该主键所对应的数据开始,重新执行该实时更新步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510641703.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页的访问方法及装置
- 下一篇:基于分布式环境的数据存储及处理系统