[发明专利]一种基于统一视图的行列混合数据存储模型的建立方法有效
申请号: | 201510033610.6 | 申请日: | 2015-01-22 |
公开(公告)号: | CN104657426B | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 王远;陈亮;吴鹏;王为民 | 申请(专利权)人: | 江苏瑞中数据股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事实表 存储 存储模型 混合数据 数据抽象 索引表 维度 星型 行列 原始数据结构 按行存储 存储空间 屏蔽数据 数据重组 维度分析 应用开发 敏感 列存储 异构性 构建 统一 应用 压缩 | ||
本发明公开了一种基于统一视图的行列混合数据存储模型的建立方法,以同时满足行列敏感应用的不同需求。本发明方法具体为在原始数据结构的基础上进行数据抽象,标识出需要列式存储的列,对这些列进行维度分析,为每列建立维度值索引表,以此构建星型模型,最后进行数据重组,将原始数据表分成两个部分:事实表和维表,该事实表不包含维表相关列,且该事实表按行存储,将维表、维度值索引表按列存储。本发明在逻辑上基于星型模型进行数据抽象;在存储上将I/O敏感的列进行列式存储,并基于列值域进行逻辑压缩,降低I/O开销与存储空间;在应用上,基于统一视图/表,屏蔽数据存储的异构性,减轻应用开发的复杂性。
技术领域
本发明涉及一种数据存储模型的建立方法,属于关系型数据库、在线分析处理技术领域。
背景技术
随着信息化的不断发展,越来越多的企业在在生产信息化过程中积累了大量的结构化数据。以电力系统为例,一方面是所需要管理的测点规模越来越大,预计将达到千万级甚至亿级以上;另一方面是测点产生数据的频率越来越高。随着时间的积累,数据规模越来越大,预计将达到PB字节以上。再以运营商为例,随着越来越多的省份用户规模均接近上亿规模,每天将产生数十亿的信令数据与计费数据。数据量的飞速增长,将对数据仓库的处理规模、处理速度提出了更高的要求。
由于传统数据仓库受制于其传统的软件体系架构,其在数据规模、处理能力、并行计算、负载均衡、动态自治等方面均已无法满足实际应用需求。当前数据存储模型主要有行存储与列存储两类,行存储主要面向“多列少行”的查询类应用,而列存储主要应对“多行少列”的分析统计类应用。目前许多企业针对不同的应用建立不同的数据仓库,具备如下局限性:1)数据在逻辑上存储多份,难于维护管理;2)数据重复存储,造成巨大的成本压力;3)应用需要做针对性的开发,不同的应用访问不同的数据存储。
在数据仓库领域,引入新的数据存储模型来解决上述问题是当前研究的热点之一。经初步检索,暂未发现有相关的专利文献。
发明内容
为了解决上述问题,能够同时满足行列敏感应用的不同需求,使得数据访问对应用透明,本发明提供了一种基于统一视图的行列混合数据存储模型的建立方法,该方法在逻辑上基于星型模型进行数据抽象,维护一份数据;在存储上将I/O敏感的列进行列式存储,并基于列值域进行逻辑压缩,极大的降低I/O开销与存储空间;在应用上,基于统一视图/表,屏蔽数据存储的异构性,极大的减轻应用开发的复杂性。
本发明采用的技术方案具体为:
1)基于原始数据结构进行数据抽象,从原始记录中,标识出需要进行列式存储的列;
数据抽象是构建星型模型的基础。本步骤决定哪些列按列存储,以及相关列与原始数据的对应关系。
2)对上述需要列式存储的列进行维度分析,为每一列建立对应的维度值索引表,维度值索引表包含两列:原始值以及对应的值标识,该值标识记为VID。维度值索引表是数据重组的参照。最终的列存数据将不存储对应列的原始值,而是存储维度值索引表对应的值标识(VID)。
3)将原始数据表视为事实表,将需要列式存储的列视为维度表,建立星型模型;
4)对事实表进行加工,对每条原始记录生成唯一的记录标识,记为RID;
5)对维表进行加工,依据维度值索引表将对应的维表更改为两列结构:<RID,VID>,并建立对应的索引;
星型模型的建立使得列存数据(维表)与行存数据(事实表)之间建立起了关联关系,维表与事实表的关联键为对应的RID。在实际的应用过程中,数据库系统将先访问维度值索引表,将对应的维度值转换成VID,利用VID对维表进行分析检索,获取满足条件的RID集合;根据需要,利用RID集合从对应的事实表中获取原始数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司,未经江苏瑞中数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510033610.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:结构化查询语句生成系统及方法
- 下一篇:一种web缓存的更新方法