[发明专利]一种基于概率的大数据查询方法有效

专利信息
申请号: 201510492377.8 申请日: 2015-08-12
公开(公告)号: CN105117442B 公开(公告)日: 2018-05-04
发明(设计)人: 宋杰;伍晋博;张一川;张莉 申请(专利权)人: 东北大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 沈阳东大知识产权代理有限公司21109 代理人: 梁焱
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 概率 数据 查询 方法
【权利要求书】:

1.一种基于概率的大数据查询方法,其特征在于:包括以下步骤:

步骤1:对具有多个属性的数据集进行划分;

步骤2:对经过划分后的数据集进行装载;

步骤3:对数据集进行概率查询;

所述的步骤1包括如下步骤:

步骤1.1:选择数据集的一个或者多个属性作为数据集的查询属性,给定每个查询属性值域的等宽划分粒度;

步骤1.2:填补数据集中查询属性取值空缺的数据,通常情况下,将这些查询属性的取值设为该查询属性在其值域的最小值、最大值或者空值;

步骤1.3:判断查询属性取值的数据类型,查询属性取值的数据类型共有数值和文本两种类型,如果是数值类型,则执行步骤1.4,如果是文本类型,则执行步骤1.5;

步骤1.4:按照查询属性取值的大小进行排序,根据查询属性的划分粒度对查询属性进行等宽划分,继续执行步骤1.6;

步骤1.5:按照查询属性取值首字母的字典序进行排序,根据查询属性的划分粒度对查询属性进行等宽划分,继续执行步骤1.6;

步骤1.6:将各个维的维信息存储在分布式文件系统中,维信息主要包括维名称、维值取值类型以及维的划分粒度。

2.根据权利要求1所述的基于概率的大数据查询方法,其特征在于:所述的步骤2包括如下步骤:

步骤2.1:对数据集中所有划分得到的数据分块进行分组;

将每个查询属性作为多维数据空间的一个维,那么该数据集中的数据分布在一个多维数据空间中,对查询属性的值域进行等宽划分其实也就是对每个维的取值空间进行等宽划分,基于每个维的划分,分布在多维数据空间中的数据被划分为多个小的数据块,在此将划分得到的每个小的数据块称作一个block;

基于多维空间线性化方法对多维数据空间中的block进行编号,按照编号的大小顺序将block划分一个或者多个block小组;

步骤2.2:创建数据集在分布式文件系统中的存储目录;

步骤2.2.1:判断数据库系统存储数据的根目录root目录是否存在,如果不存在,则执行步骤2.2.2;如果存在,则执行步骤2.2.3;

步骤2.2.2:创建数据库系统数据存储数据根目录root目录,执行步骤2.2.3;

步骤2.2.3:在根目录root目录下创建该存储该数据的特定目录table目录,该目录以该数据集所指定的名称命名;

步骤2.2.4:为每个block小组创建m个bucket子目录来存放数据,这m个子目录的命名规则为“block小组编号.子目录bucket编号”;所述bucket是table目录的子目录,是block中的数据进行概率放置的单元,一个block中的数据可能概率放置到多个bucket目录中;

步骤2.3:将每个block小组中各个block中的数据分别以m个不同的放置概率放置到table目录中的m个不同的bucket子目录中,数据存储在bucket子目录的trunk文件中;所述trunk是数据集数据存储的基本单元,包含在bucket目录中,且每个trunk文件可能存储多个block中的数据;

对于block中的任意一条数据,数据可能存放在m个bucket子目录中的不同的trunk文件中,在此称这m个trunk文件为一个trunk小组;对于放置到该trunk小组的任意一个block的数据,需要记录block数据在该trunk小组的放置次数;

如果trunk小组中任意一个trunk文件达到了指定的大小,则执行步骤2.4;否则,继续执行步骤2.3;

如果完成数据集中的所有数据的放置,则执行步骤2.5;

步骤2.4:在m个bucket子目录中分别创建新的trunk文件存储数据,执行步骤2.3;

步骤2.5:将每个block小组中各个block在所有trunk小组的放置次数存放在分布式文件系统中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510492377.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top