[发明专利]一种基于动态索引结构的海量数据实时查询方法有效

申请号：	201310648180.X	申请日：	2013-12-04
公开（公告）号：	CN103678550A	公开（公告）日：	2014-03-26
发明（设计）人：	陈丹伟;庄俊	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京知识律师事务所 32207	代理人：	胡玲
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于动态索引结构海量数据实时查询方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机大数据查询技术领域，特别涉及一种基于动态索引结构的海量数据实时查询方法。

背景技术

随着互联网的飞速发展，社交网络、移动应用等日趋火热，我们看到网络信息的数据量在日益增多，大数据作为一种新兴数据概念而被定义，数据作为信息的载体，起着举足轻重的作用。数据的爆炸式增长使得我们进入了大规模数据分析的时代，其特点是计算强度大，并且要求大规模并发存储和处理能力。如何快速地处理海量数据，及时有效地从海量数据中提取有价值的信息，是急需解决的技术问题。

目前，大规模数据分析有2种主流技术：第一种是20世纪80年代开始，以Teradata、Gamma研究项目为代表的并行数据库逐步发展成熟，它是由一系列操作符组成，前一操作符的输出流是下个操作符的输入流，记录按流水线的方式依次经过这些操作符，具有较高的性能。第2种是以Google为首的基于Map Reduce和分布式文件系统GFS组成一种“无共享”的简单函数式编程的并行计算框架，支持其每天亿万次的搜索。Apache的Hadoop是一种Map Reduce的开源实现。但这些大规模数据处理技术难以满足实时性要求，更多的是针对离线数据的处理。Hadoop更像是一种ETL工具，两者的关系不是相互竞争而是互为补充。

另一方面，由Guttman提出的动态索引结构R-Tree及基于R-Tree的变种，其插入、查询等操作可以同时进行，并且支持多维的模型，在众多空间索引技术中的优势非常明显，但是其针对大规模数据处理时随着树高度的增加，其查询结点重叠度增加，造成查询效率下降较快。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于提供一种基于动态索引结构（DC-Tree）的大规模多维数据实时查询方法，该方法解决了大规模多维数据处理的滞后性问题，实现了在分布式架构体系上的海量数据实时查询模型。

本发明解决其技术问题所采用的技术方案是：本发明提出一种基于动态索引结构（DC-Tree）的海量数据实时查询方法，该方法包括如下步骤：

步骤1：多维数据记录DR通过MasterNode中Z Curve映射函数f_z，生成降维结果集S；

步骤2：MasterNode选定k个哈希函数，通过Bloom Filter对结果集S进行映射，生成节点集NN；

步骤3：更新数据记录DR，对节点集NN中每个元素实行动态构建；

步骤4：用户User查询MDS结果，通过步骤1、步骤2获得节点集NN，启用并行查询方法；

步骤5：用户User对节点集NN中所有访问节点的结果集进行聚合，得到最终查询结果Rset。

本发明是基于动态索引结构将海量多维数据集降维，支持高空间效率低查询时间的方法，并支持分布式冗余存储，从而提升了传统分布式机制中数据分配的效率，适应大规模数据的处理。本发明建立了具有概念层次化结构的多维数据树，打破传统的单一属性查询方法，使带有多维功能属性的数据集分成不同维度进行构建，大大降低了单一属性查询时的聚合工作量。

本发明通过将高维数据空间数据映射到一维空间，大大降低了数据管理节点的工作负担，支持数据存储节点的动态增加。同时设计了海量数据插入和查询方法，支持多维属性数据的动态构建，并支持海量数据查询的实时性效果，增加了查询过程访问锁机制，适应查询的并发性需求。

一、系统架构

图1给出海量数据实时查询系统的体系架构，该系统由以下四部分组成：数据管理节点（Master Node）、动态索引树（DC-Tree）、数据存储节点（Data Node）及用户（User）。MasterNode负责数据查询/更新的定位，主要运用降维和快速查询技术。DC-Tree主要是用于动态构建多维属性数据查询树，提供实时查询效果。DataNode负责具体数据的存储。用户（User）向MasterNode发送查询请求，MasterNode将对查询请求内容处理，确定所查询内容在部分DataNode上，并将这些符合要求的DataNode提交给用户。完成这个操作之后，用户将于MasterNode断开连接，并主动访问提交的DataNode进行查询。系统整体架构如下图1所示。

本发明的海量数据实时查询方案由以下四部分操作组成：MDS(最小描述子集)分解、Z curve降维处理、Bloom Filter定位、DC-Tree索引及结果聚合。

二、方法流程

1.MDS(最小描述子集)分解

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310648180.X/2.html，转载请声明来源钻瓜专利网。

上一篇：提供问题解决方案的方法、服务器和系统
下一篇：进行网络资源聚类的方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于动态索引结构的海量数据实时查询方法有效

专利文献下载