[发明专利]一种基于概率的大数据查询方法有效

申请号：	201510492377.8	申请日：	2015-08-12
公开（公告）号：	CN105117442B	公开（公告）日：	2018-05-04
发明（设计）人：	宋杰;伍晋博;张一川;张莉	申请（专利权）人：	东北大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	沈阳东大知识产权代理有限公司21109	代理人：	梁焱
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于概率数据查询方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据库技术领域，特别涉及一种基于概率的大数据查询方法。

背景技术

人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化，世界已进入网络化的大数据时代。大数据时代的到来给传统的数据管理系统带来了极大的挑战，NoSQL(Not only SQL)数据库凭借其高扩展、高可用以及灵活的数据模型等特点得到了学术界和工业界的广泛青睐。数据查询技术作为数据库系统的核心技术之一，伴随着云计算技术以及NoSQL数据库技术的发展，基于NoSQL的数据查询技术备受关注，而且在业界也得到了广泛的研究。

众所周知，当前主流的NoSQL数据库主要基于MapReduce编程模型、分布式文件系统等技术来对大数据进行管理，其中，分布式文件系统主要用于大数据的存储，MapReduce编程模型用于大数据的处理。NoSQL数据库的数据查询性能与数据存储与索引设计、基于MapReduce的查询处理、查询优化等问题密切相关，目前大数据查询技术的研究主要集中在这些关键技术的性能优化上，而且关于这些问题目前已经得到了广泛深入的研究，拥有许多优秀的解决方案，论文“云数据管理系统中查询技术研究综述”从索引管理、查询处理、查询优化以及在线聚集等多个方面对云数据管理系统中查询技术的研究工作进行了总结分析。然而，就数据的查询方式而言，无论是传统的关系型数据库还是新型的NoSQL数据库，其所采用的查询方式都是完整查询，即对于给定的查询条件，无论如何定义查询条件的匹配算法(精确或近似)，无论如何对查询结果集排序，查询都将确定地返回所有匹配数据。例如，某一用户信息表包括身份证号、姓名、年龄等字段，对于任一给定的查询条件，如查询年龄大于30岁的所有用户或者所有姓名是张三的用户，查询都将确定地返回所有满足查询条件的数据。

在大数据环境下，由于数据规模较大以及数据结构的复杂性，完整查询需要消耗较大的时间代价。许多实际应用表明，人们并不需要确定完整的查询结果，也不需要对查询结果精确排序(如Top-k查询)，仅仅需要满足一定完整性要求的部分查询结果，或者可以适当地损失查询完整性来满足性能要求。例如，人们在机场查询满足某条件的酒店时，他们并不需要返回的结果集是全部数据，相反他们对响应时间的要求会更高。而当前数据库系统采用的完整查询方式已无法满足这种查询需求，亟需定义一种近似完整性查询技术来弥补这一空缺。近似完整性查询不同于传统的完整查询，其近似性主要体现在数据查全的可能性上，即查询到满足查询条件的所有数据的概率，在此将其称之为查全概率，查全概率描述了查询结果集是完整数据集的可能性。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于概率的大数据查询方法，以满足在大数据环境中近似完整性查询的需求。

本发明的技术方案是这样：

一种基于概率的大数据查询方法，包括以下步骤：

步骤1：对具有多个属性的数据集进行划分；

步骤1.1：选择数据集的一个或者多个属性作为数据集的查询属性，给定每个查询属性值域的等宽划分粒度；

步骤1.2：填补数据集中查询属性取值空缺的数据，通常情况下，将这些查询属性的取值设为该查询属性在其值域的最小值、最大值或者空值；

步骤1.3：判断查询属性取值的数据类型，查询属性取值的数据类型共有数值和文本两种类型；如果是数值类型，则执行步骤1.4，如果是文本类型，则执行步骤1.5；

步骤1.4：按照查询属性取值的大小进行排序，根据查询属性的划分粒度对查询属性进行等宽划分，继续执行步骤1.6；

步骤1.5：按照查询属性取值首字母的字典序进行排序，根据查询属性的划分粒度对查询属性进行等宽划分，继续执行步骤1.6；

步骤1.6：将各个维的维信息存储在分布式文件系统中，维信息主要包括维名称、维值取值类型以及维的划分粒度。

步骤2：对经过划分后的数据集进行装载；