[发明专利]一种适应协处理器的混合OLAP查询处理方法有效
申请号: | 201410720029.7 | 申请日: | 2014-12-01 |
公开(公告)号: | CN104361118B | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 张延松;张宇;王珊 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纪凯知识产权代理有限公司11245 | 代理人: | 徐宁,孙楠 |
地址: | 100872 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种适应协处理器的混合OLAP查询处理方法,采用MOLAP模型将多维数据集组织为空间CUBE,每一个存储单元对应唯一的多维空间坐标;构建虚拟多维数据CUBE;将事实数据压缩存储;将n个维坐标ID和度量属性存储为列数组;在semi‑MOLAP模型中多维查询的处理过程被分解为构建虚拟数据CUBE、n维过滤和聚集计算,通过创建维过滤向量、维坐标ID列在维过滤向量上的过滤操作以及基于度量索引的聚集计算实现基于数组和向量的简单计算过程,并将其中数据量少但计算量较大的n维过滤操作分配给Coprocessor执行;在并发查询处理时,CPU与Coprocessor上的计算能够实现流水并行处理。本发明支持多维查询处理,能有效提高大数据存储、访问和处理效率,可以广泛在GPU、GPGPU以及新的Intel Phi Coprocessor平台中应用。 | ||
搜索关键词: | 一种 适应 处理器 混合 olap 查询 处理 方法 | ||
【主权项】:
一种适应协处理器的混合OLAP查询处理方法,其包括以下步骤:1)采用MOLAP模型将多维数据集组织为数据CUBE,每一个存储单元对应唯一的多维空间坐标,即多维数组下标;事实数据存储所使用的隐式的多维数组下标,代表其在多维数组中的物理位置;2)采用semi‑MOLAP模型将多维数据集用逻辑多维数组建模,构建虚拟数据CUBE;其中,semi‑MOLAP模型为准多维OLAP模型;所述虚拟数据CUBE构建方法为:保留数据CUBE的逻辑空间结构,将虚拟数据CUBE中的实际事实数据进行序列化,将其隐式的多维数组下标序列化,将一个事实数据转换为n个维坐标ID和度量属性序列结构;实现事实数据与各个维之间所构成的逻辑多维数组地址映射;3)采用关系存储方式将事实数据压缩存储,只存储逻辑多维数组地址空间中实际的事实数据,并附加上逻辑多维数组地址空间中各维的坐标,与ROLAP模型中事实表采用外键和度量属性的存储方式相同,区别在于虚拟数据CUBE的序列化存储中的维坐标ID代表了事实数据在虚拟数据CUBE各维上的坐标位置;4)将n个维坐标ID和度量属性存储为列数组,即用列数组存储各事实数据属性;低势集的字符串类型属性采用轻量字典表压缩,数组中存储其较短的压缩编码;内存数据库和Coprocessor数据库采用完全的数组物理存储,将维表和事实表存储为数组族,数组下标用作数组间关联访问的索引;5)进行多维查询,多维查询是在多维数据集上按用户指定的维或维层次抽取多维数据子集并对其进行聚集计算的过程;在MOLAP模型中为在以多维数组存储的多维数据集上按维或维层次的映射以多维数组坐标访问数据并进行聚集计算;在ROLAP模型中将事实表和相关的维表连接后按查询条件选择记录并按指定的属性进行分组聚集计算;在semi‑MOLAP模型中,多维查询为单查询处理过程,将查询结果数据CUBE还原为原始分组属性结果集;所述单查询处理过程包括以下步骤:(1)根据查询中维表的数量动态创建n维的虚拟数据CUBE,多维查询转换为在各维轴上的过滤条件并生成维过滤器,多维查询中n个过滤条件语句定义了一个n维的虚拟数据CUBE,并根据查询中的维表过滤及分组子句创建n个维过滤向量;通过定义维上的过滤器实现多维索引计算;(2)n维过滤:将压缩事实数据划分为两个部分:维坐标ID属性组和度量属性组,维坐标ID属性组用作多维索引计算,负责在n维的虚拟数据CUBE上完成n维数据过滤,并生成基于位图或向量结构的度量索引,且在n维过滤中对度量索引的更新过程是一个迭代计算查询结果数据CUBE多维坐标的过程;度量属性组用于在度量数组中按度量索引中指示的数组下标随机访问多维查询相关的数据,并根据度量索引中的多维坐标值确定其聚集计算在所依赖的查询结果数据CUBE中多维数组的下标;(3)根据n维过滤所生成的度量索引访问相应的度量属性值,实现基于查询结果数据CUBE的聚集计算;度量索引中记录了满足最终连接条件的事实记录的位置和其在多维分组聚集数组中的多维坐标,实现对事实数据高效率的按位置随机访问并度量属性值按度量索引中记录的多维分组聚集数组的坐标对其直接进行聚集计算,最后,将查询结果数据CUBE通过维向量字典数组还原为原始分组属性结果集;上述单查询处理过程中,在构建n维的虚拟数据CUBE、n维过滤和聚集计算三个执行阶段,两个执行时间较短的维表处理和度量计算阶段分解为独立的查询子任务,由CPU异步完成;不同查询之间的三个执行阶段在CPU和Coprocessor处理器上为流水并行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410720029.7/,转载请声明来源钻瓜专利网。
- 上一篇:数据抽取装置和方法
- 下一篇:处理方法、处理装置和电子设备