[发明专利]按列存储环境下分布式系统中物化视图布局及其维护方法无效
申请号: | 201110452726.5 | 申请日: | 2011-12-30 |
公开(公告)号: | CN102567527A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 周傲英;徐辰;夏帆;陈峰;祝海通;周敏奇;钱卫宁 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储 环境 分布式 系统 物化 视图 布局 及其 维护 方法 | ||
技术领域
本发明属数据库技术领域,具体涉及一种按列存储环境下分布式系统中物化视图布局与维护方法。
背景技术
随着数据规模的急速增长,数据密集型计算在当前研究领域格外引人注目许多大型IT企业,如谷歌,亚马逊以及他们的竞争对手都在致力于构建大规模数据分析平台,以支持数据密集型计算。在这里,数据密集型计算系统包括获得,更新,共享,归档的数据,并提供在海量数据集上足够的计算能力。由大量的无共享的商用电脑构成的集群系统通常作为基础设施有效和高效的提供这些服务。
通常情况下,数据的来源很多(例如,操作数据库,Web 2.0的网页等),这些数据都将不断地集成到数据分析平台(即,数据密集型计算系统)。数据源和数据分析平台之间的关系如图 1。大规模数据分析平台从各种数据源收集数据,并将这些数据物化存储下来用以数据分析。视图是一个常用的适用于高效处理的数据分析的数据结构。然而,当存储在数据分析平台物化视图不能反映来自在数据源的最新更新信息时,物化视图就会过时。因此,如何保持物化视图与数据源之间的一致性成为一个亟待解决的问题。
与传统的数据仓库不同,数据分析平台中的视图是基于数据源大规模分布式文件系统的,如HDFS(Hadoop分布式文件系统)、GFS(Google文件系统)等。值得注意的是,HDFS采用了“一次写入多次读出”的文件访问模式来管理数据,文件一旦创建、写入和关闭,则不能再次更新该文件除了将数据追加到文件的末尾。也就是说本发明不能删除,插入或更新文件内的记录。此外,本发明使用面向列存储模型来存储关系数据表,而不是传统的按行存储模型(即,N-ary模型)。按列存储模型使得文件中的数据更新与传统的按行存储模型相比变得更加困难。因此,在新的环境下,新的文件访问模式和按列存储模型给物化视图的维护带来巨大的挑战。
本发明克服了现有技术中分布式文件系统不能对文件进行更新的缺陷,提出了一种按列存储环境下分布式系统中物化视图布局与维护方法。本发明使用面向列存储模型来存储关系数据表,并且引入一致性模型对按列存储环境下分布式系统中物化视图布局进行维护。
发明内容
本发明公开了一种按列存储环境下分布式系统中物化视图布局,包括:
主属性集:主属性的集合;
主属性的投影:每个主属性在物理层次上被投影为主属性的投影,所述每个主属性的投影被划分为多个段,所述段中包含数据元组;
非主属性的投影:每个非主属性在物理层次上被投影为非主属性的投影;
连接索引:所述主属性的投影与非主属性的投影之间的映射;
标记向量:在逻辑层次上表示所述数据元组存在性的位向量;
所述主属性的投影通过连接索引与所述非主属性的投影映射连接;通过所述标记向量指示所述主属性的投影中数据元组是否存在于相对应的非主属性的投影中。
其中,所述主属性的投影通过哈希函数被划分为多个段。
其中,所述数据元组以按列存储的方式组织。
其中,所述主属性与非主属性分开投影。
其中,所述投影中,所述主属性集的每个主属性集单独投影成列。
本发明中,物化视图是指预先计算并保存表连接或聚集等耗时较多的操作的结果,这样,在执行查询时就可以避免这些耗时的操作,从而快速的得到结果。物化视图布局是指物化视图的物理存储方式,即如何在文件系统中组织、部署数据。
本发明公开了一种按列存储环境下分布式系统中物化视图布局的维护方法,包括如下步骤:
步骤一:通过使用视图日志记录对于物化视图进行的操作;
步骤二:通过一致性模型批量处理所述视图日志中的操作。
其中,所述视图日志包含向物化视图中插入元组、删除元组的基本操作。
其中,所述一致性模型包括最终一致性模型和基于时间轴的一致性模型。
本发明的有益效果是可以将传统数据仓库与数据源之间的一致性维护算法移植到基于分布式系统的大规模数据分析平台上,从而可以保持数据分析平台上视图与数据源之间的一致性。
附图说明
图1为本发明按列存储环境下分布式系统中物化视图布局的物化视图数据布局示意图。
图2为本发明按列存储环境下分布式系统中物化视图布局的数据平台和数据源的示意图。
图3为本发明按列存储环境下分布式系统中物化视图布局的连接索引示意图。
图4 为本发明按列存储环境下分布式系统中物化视图布局的一致性模型示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110452726.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算CMP研磨垫使用寿命的方法
- 下一篇:实现对网页重新排版的方法