[发明专利]基于负载均衡和查询日志的数据空间多维索引方法有效
申请号: | 201610422994.5 | 申请日: | 2016-06-13 |
公开(公告)号: | CN106095951B | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 王红滨;王念滨;周连科;祝官文;王瑛琦;何鸣;宋奎勇 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于负载均衡和查询日志的数据空间多维索引方法,涉及数据空间索引技术领域。旨在把倒排索引分布到不同的索引节点中,使得各个索引节点保持负载均衡,同时最小化查询处理涉及的通信开销和减少搜索空间。在垂直划分中,首先利用查询日志和实体中频繁出现的词,聚合索引token词,使用超图表示用户查询与倒排列表间的访问模式;在水平划分中,通过超图刻画用户查询与实体间的访问模式信息,把水平划分问题归约为超图划分问题,使得不同索引节点的负载保持均衡,并降低查询涉及的通信开销。结合垂直划分和水平划分策略,构建二维混合索引并扩展为三维索引。通过在公开数据集DBLP上进行实验表明本发明方法在吞吐量、查询响应时间及扩展性优于已有方法。 | ||
搜索关键词: | 基于 负载 均衡 查询 日志 数据 空间 多维 索引 方法 | ||
【主权项】:
1.一种基于负载均衡和查询日志的数据空间多维索引方法,其特征在于:所述方法将倒排索引分布到不同的索引节点中,使得各个索引节点保持负载均衡,所述方法为:结合基于负载均衡与超图划分的垂直划分索引和基于负载均衡与超图划分的水平划分索引得到二维划分索引框架2D‑IL,从吞吐量和容错率角度出发,扩展二维划分索引框架2D‑IL为三维索引框架MIL,基于三维索引框架MIL实现数据空间多维索引方法;所述方法的具体 实现过程为:步骤一、获得二维划分索引框架2D‑IL的过程为:步骤一一、确定基于负载均衡与超图划分的垂直划分索引确定垂直划分索引框架,使用查询日志和实体集中tokens偏斜信息来压缩数据空间倒排索引,形成一组聚合后的tokens词;然后,按照负载均衡和超图划分把所述tokens词的倒排列表均衡地分布到相应的索引节点中;基于负载均衡与超图划分的垂直划分1)、聚合tokens词的选取:通过聚合频繁地共同出现在实体或者查询日志中的tokens词来压缩索引;2)、给出垂直索引分布方式所述垂直索引分布方式基于聚合tokens词,把压缩后的倒排索引分布到相应的索引节点集中,使得保持各个索引节点负载均衡,同时最小化索引节点与索引服务器的通信开销;步骤一二、确定基于负载均衡与超图划分的水平划分索引水平划分索引框架的确定:按照负载均衡和超图划分把实体集的倒排列表分布到相应的索引节点中;水平划分:基于查询日志的访问模式信息与超图理论,把实体划分到不同的索引节点中,使得各个索引节点负载保持均衡以及索引节点内部任意两个实体的相似性较高,同时最小化索引节点与索引服务器的通信开销;步骤一三、获得二维划分索引框架:使二维索引分布在不同索引节点中,使每个索引节点中索引花费对存储空间显著降低,二维索引逻辑上可以看成一个N×M的集群,数据空间索引在行维度上是一个基于负载均衡与超图划分的水平划分索引,按照实体级划分;数据空间索引在列维度上是一个基于负载均衡与超图划分的垂直划分索引,按照聚合tokens词划分;每个索引节点对应tokens词压缩后的倒排索引;在第i行和第j列中的索引节点ISij中,包含tokens词{a,b,...,f}和实体{o30,...o50},其对应的倒排索引格式如虚线箭头指向的倒排索引;在索引节点ISij中,其索引词汇为原始词汇的一个子集{a,b,...,f},这些词汇在垂直划分后形成三个聚合tokens词,聚合tokens词对应实体集都同属于一个水平划分;步骤二、扩展二维划分索引框架2D‑IL为三维索引框架MIL:通过为二维索引中每个索引节点ISij复制D份,构成三维立方体的多维索引,在索引节点ISij的每个副本之间保证通信,防止该索引节点ISij失败时导致没有可用的查询结果的情况;步骤三、利用三维索引框架(MIL)实现数据空间多维索引:所述三维索引逻辑上可以看成一个N×M×D的3D立方体,其中D是复制的份数;在索引号(Ni,Mj,Dk)对应的单元格中,黑色点表示索引节点ISijk涉及索引token词{a,b,...,f}、实体{o30,...o50}并且是第k个备份;当一个查询Q=t1∧t2∧...∧tn被提交时,其处理流程为:(1)找出涉及token词{t1,t2,...,tn}的列集合{Mj};(2)对于这些列集合{Mj},选择出相似性分数大于某个阈值的行集合{Nj};(3)在(Nj,Mj)对应的备份中,随机选择一个立方体;(4)在确定所有的小立方体后,即(Ni,Mj,Dk)对应的立方体,把相应的子查询并发地发送到对应的索引节点ISijk中,进行并发查询;如果当前索引节点ISijk失败,利用通信机制把子查询发送随机发送到其它副本的索引节点中ISijl;(5)最后把所有并发查询结果进行综合并返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610422994.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种无线传输型电线测量系统
- 下一篇:一种可以微调打磨彻底的齿轮打磨机