[发明专利]一种基于概率的大数据查询方法有效

专利信息
申请号: 201510492377.8 申请日: 2015-08-12
公开(公告)号: CN105117442B 公开(公告)日: 2018-05-04
发明(设计)人: 宋杰;伍晋博;张一川;张莉 申请(专利权)人: 东北大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 沈阳东大知识产权代理有限公司21109 代理人: 梁焱
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 概率 数据 查询 方法
【说明书】:

技术领域

发明属于数据库技术领域,特别涉及一种基于概率的大数据查询方法。

背景技术

人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据时代。大数据时代的到来给传统的数据管理系统带来了极大的挑战,NoSQL(Not only SQL)数据库凭借其高扩展、高可用以及灵活的数据模型等特点得到了学术界和工业界的广泛青睐。数据查询技术作为数据库系统的核心技术之一,伴随着云计算技术以及NoSQL数据库技术的发展,基于NoSQL的数据查询技术备受关注,而且在业界也得到了广泛的研究。

众所周知,当前主流的NoSQL数据库主要基于MapReduce编程模型、分布式文件系统等技术来对大数据进行管理,其中,分布式文件系统主要用于大数据的存储,MapReduce编程模型用于大数据的处理。NoSQL数据库的数据查询性能与数据存储与索引设计、基于MapReduce的查询处理、查询优化等问题密切相关,目前大数据查询技术的研究主要集中在这些关键技术的性能优化上,而且关于这些问题目前已经得到了广泛深入的研究,拥有许多优秀的解决方案,论文“云数据管理系统中查询技术研究综述”从索引管理、查询处理、查询优化以及在线聚集等多个方面对云数据管理系统中查询技术的研究工作进行了总结分析。然而,就数据的查询方式而言,无论是传统的关系型数据库还是新型的NoSQL数据库,其所采用的查询方式都是完整查询,即对于给定的查询条件,无论如何定义查询条件的匹配算法(精确或近似),无论如何对查询结果集排序,查询都将确定地返回所有匹配数据。例如,某一用户信息表包括身份证号、姓名、年龄等字段,对于任一给定的查询条件,如查询年龄大于30岁的所有用户或者所有姓名是张三的用户,查询都将确定地返回所有满足查询条件的数据。

在大数据环境下,由于数据规模较大以及数据结构的复杂性,完整查询需要消耗较大的时间代价。许多实际应用表明,人们并不需要确定完整的查询结果,也不需要对查询结果精确排序(如Top-k查询),仅仅需要满足一定完整性要求的部分查询结果,或者可以适当地损失查询完整性来满足性能要求。例如,人们在机场查询满足某条件的酒店时,他们并不需要返回的结果集是全部数据,相反他们对响应时间的要求会更高。而当前数据库系统采用的完整查询方式已无法满足这种查询需求,亟需定义一种近似完整性查询技术来弥补这一空缺。近似完整性查询不同于传统的完整查询,其近似性主要体现在数据查全的可能性上,即查询到满足查询条件的所有数据的概率,在此将其称之为查全概率,查全概率描述了查询结果集是完整数据集的可能性。

发明内容

针对现有技术存在的不足,本发明的目的是提供一种基于概率的大数据查询方法,以满足在大数据环境中近似完整性查询的需求。

本发明的技术方案是这样:

一种基于概率的大数据查询方法,包括以下步骤:

步骤1:对具有多个属性的数据集进行划分;

步骤1.1:选择数据集的一个或者多个属性作为数据集的查询属性,给定每个查询属性值域的等宽划分粒度;

步骤1.2:填补数据集中查询属性取值空缺的数据,通常情况下,将这些查询属性的取值设为该查询属性在其值域的最小值、最大值或者空值;

步骤1.3:判断查询属性取值的数据类型,查询属性取值的数据类型共有数值和文本两种类型;如果是数值类型,则执行步骤1.4,如果是文本类型,则执行步骤1.5;

步骤1.4:按照查询属性取值的大小进行排序,根据查询属性的划分粒度对查询属性进行等宽划分,继续执行步骤1.6;

步骤1.5:按照查询属性取值首字母的字典序进行排序,根据查询属性的划分粒度对查询属性进行等宽划分,继续执行步骤1.6;

步骤1.6:将各个维的维信息存储在分布式文件系统中,维信息主要包括维名称、维值取值类型以及维的划分粒度。

步骤2:对经过划分后的数据集进行装载;

步骤2.1:对数据集中所有划分得到的数据分块进行分组;

将每个查询属性作为多维数据空间的一个维,那么该数据集中的数据分布在一个多维数据空间中,对查询属性的值域进行等宽划分其实也就是对每个维的取值空间进行等宽划分,基于每个维的划分,分布在多维数据空间中的数据被划分为多个小的数据块,在此将划分得到的每个小的数据块称作一个block;

基于多维空间线性化方法对多维数据空间中的block进行编号,按照编号的大小顺序将block划分一个或者多个block小组;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510492377.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top