[发明专利]一种具有多维信息的海量数据查询方法有效
申请号: | 201310350126.7 | 申请日: | 2013-08-13 |
公开(公告)号: | CN103425772A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 宋杰;郭朝鹏;王智;徐澍;张一川;朱志良 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳东大专利代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 多维 信息 海量 数据 查询 方法 | ||
技术领域
发明涉及数据挖掘领域,特别涉及一种具有多维信息的海量数据查询方法。
背景技术
随着大数据时代的到来,对传统的数据管理、查询等传统数据分析领域造成了极大的挑战。为了应对海量数据所带来对挑战,在学术界和工业界广泛采用MapReduce编程模型和分布式文件系统来应对这种挑战。OLAP(On-LineAnalytical Processing联机分析处理)是传统数据分析领域中非常重要的分析手段和方法。在大数据领域对OLAP分析也提出了新的要求。
OLAP可以按照其实现方式不同分为ROLAP(Relational OLAP面向关系的联机数据分析处理)、MOLAP(Multidimensional OLAP面向多维的联机分析处理)和HOLAP(Hybrid OLAP混合型联机分析处理)3种。其中ROLAP采用关系表存储维信息和事实数据,MOLAP则采用多维数据结构存储维信息和事实数据,而HOLAP称之为混合OLAP,该方法结合了ROLAP和MOLAP技术。无论是何种OLAP,都需要存储和计算平台的支持,尤其是在大数据环境下。为了解决大数据所带来的诸多挑战,学界和业界涌现出许多新技术,如分布式文件系统、NoSQL(Not Only Structured Query Language不仅仅是基于结构化查询语言的)数据库系统,MapReduce编程模型以及相关的优化方法,这些技术都被广泛地运用到大数据分析中。
在大数据环境中常用的OLAP优化方法有以下两种:利用预计算和浓缩数据立方的结果优化OLAP性能和通过优化存储结构和算法来优化OLAP性能。但是前者将会生成大量的数据,无法适用于海量数据环境,而后者的优化措施大多基于ROLAP,对OLAP的性能没有质的提升。有研究提出了OLAP查询中的SPAJG-OLAP子集,在存储、查询、数据分布、网络传输和分布式缓存等方面研究海量数据大规模并行处理框架的优化策略和实现技术。该研究基于并行数据库技术优化ROLAP性能,通过对OLAP查询以及存储的优化达到加速OLAP的目的,但是由于ROLAP是基于关系数据库技术,会产生大量的连接操作,当数据量非常庞大的情况下其优化效果并不明显。
就分布式的OLAP系统而言,一些基于Hadoop的云数据库系统,例如Hive、HadoopDB、HBase等,都支持OLAP。在当前对海量数据分布式OLAP领域中,广泛采用数据索引、分片等方法对ROLAP进行优化。但是ROLAP需要采用关系模型以及耗费资源的连接操作,当数据量增加时,索引及分片的优化作用急剧下降。此外还有通过对查询条件进行优化ROLAP的方法。但是同样由于不可避免连接操作,其优化作用不是非常明显。MOLAP将数据作为数据立方进行存储,但需要对维进行管理和优化,导致当前对MOLAP的研究以及系统并没有权威的报道。
发明内容
针对现有发明存在的不足,本发明的目的是提供一种具有多维信息的海量数据查询方法,以达到在海量数据环境中数据查询、聚集计算的目的。
本发明的技术方案是这样实现的:一种具有多维信息的海量数据查询方法,包括以下步骤:
步骤1:对具有多维信息的海量数据的维信息进行装载,具体包括如下步骤:
步骤1.1:对海量数据的维信息进行鉴别,判断海量数据的每一个维信息是否同时满足如下三个约束:
约束1:维由一个且仅一个维层次构成,即维是所有维级别组成的全序关系;
约束2:在维的任意维级别中,仅包含一个维属性,该维属性包含若干个维值;
约束3:在所有维值所组成的维值树中,兄弟节点包含相同个数的子节点;
若全部满足,则执行步骤1.3,否则,执行步骤1.2;
步骤1.2:对维信息进行处理,使得每一个维都形成符合约束的维值树结构,处理过程如下:
针对约束1:若有多个维层次,则根据需要对维层次进行舍弃,仅保留一个维层次即可;
针对约束2:若某一维级别包含多个维属性,则根据需要对维属性进行舍弃,仅保留一个维属性即可;
针对约束3:若兄弟节点包含的子节点个数不同,则添加空值,使兄弟节点的子节点个数相同;
步骤1.3:对维信息进行编码;
针对维值树中每一维级别的维值,从左到右以十进制数依次编码,当所有的维值均有对应的编码后编码工作结束;
步骤1.4:对维信息的编码进行存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310350126.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置