[发明专利]一种基于列存储的区级数据压缩方法无效

专利信息
申请号: 201210019945.9 申请日: 2012-01-20
公开(公告)号: CN102609491A 公开(公告)日: 2012-07-25
发明(设计)人: 乐嘉锦;王梅;夏小玲 申请(专利权)人: 东华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 201620 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 存储 级数 压缩 方法
【说明书】:

技术领域

发明涉及一种基于列存储的区级压缩方法。

背景技术

目前,数据仓库等分析型应用中包含的数据量急剧增加,为了提高读优化(read-optimized)系统的性能,人们开始考虑一种与传统行存储不同的存储方式-----列存储。列存储技术是将数据表以列为单位进行存储,数据表记录中的同一属性值被存储在一起。在进行查询的时候,只需要将需要的列读入内存,减少了读入的数据量,使得系统的查询效率得到提高。然而,数据仓库需要处理的数据量是非常庞大的,这造成查询时大量的I/O。由于CPU处理与磁盘访问发展的不平衡,使得I/O成为了查询的瓶颈。因此,减少I/O的次数能显著的提高查询的效率。而数据压缩则能在一定程度上减少I/O的次数。列存储中,数据具有相同的数据类型,相邻数据之间具有较高的相似性,使得列存储系统和传统的行存储系统相比具有更好的压缩效率。因此,基于列存储的数据压缩成为了一个研究的热点。

研究表明,不同压缩方法对同种数据类型的压缩效果是不同的,同样相同的压缩方法对不同类型数据的压缩效果也是不同的。因此,对不同的数据类型采用不同的压缩方法十分必要。现存的基于列存储的压缩技术往往是建立在整个列上面的,即这些方法将一个列的数据采用同一种压缩方式进行压缩,忽略了局部数据在分布上存在着差异性。由此看来在较小的粒度上面进行压缩可以提高压缩率。然而,为每个区进行学习时间复杂度高,并不可行。因此,如何设计有效的压缩方法成为一项迫切需要解决的任务。

发明内容

本发明的目的是提供一种基于列存储的压缩方法,克服传统方法的局限性,提高压缩率,减少压缩的复杂度。

为了达到上述目的,本发明的技术方案是提供了一种基于列存储的区级数据压缩方法,其特征在于,步骤为:

步骤1、对于按列列存储的数据,任意一个列Ai中的数据在逻辑上对应一个数据段Si,Si∈S,S为所有数据段的集合,将每个数据段均匀分为若干个区,区是一系列连续块的集合;

步骤2、定义一组统计信息,记为集合Ti={t,o,r,s,a,d,n,c,l},其中t表示第i个区的数据类型,o表示i个区是否排序,r表示第i个区中item的数目,s表示区中相同值的数目,a表示区中相同值的总的item条数,d表示区中不同值的数,n表示区中空值的数目,c表示区中相同值连续的平均数目,l表示区中item的平均长度;

步骤3、在步骤2的基础上按顺序定义一组统计量,第i个区的该组统计量记为各统计量分别描述第i区中数据分布的不同特点,依次对应于:区的数据类型,为枚举类型,包括整型、浮点型、字符型、布尔型、变长字符等,区中数据是否排序,区中空值记录所占的百分比,区中相同值所占的百分比,区中相同值连续的平均数目,区中不同值的数目,区中连续块的平均长度;

步骤4、利用区的统计量估计相邻两区数据分布的相似性,定义了第i区与第i+1区之间统计量的相似因子

步骤5、对于一列中的第一个区,利用统计量进行压缩方法选择;

步骤6、对于剩余的第i个区,利用步骤4获得其与前一区的相似因子,若相似性较高,则直接沿用上一区的压缩策略,否则利用步骤3中当前区统计值,重新选择压缩方法;

步骤7、对该区按获得的压缩方法进行压缩。

优选地,所述步骤5的特点为采用逐步选择的方式,按顺序依次计算qi中各统计量的值,并根据统计值逐步进行压缩方法选择,将选择过程中最后使用到的统计量下标保存在变量j中。

优选地,所述步骤6的特点为无需为每个区进行所有统计量的学习,利用同一列数据的分布相似性进行压缩方法推荐,减少压缩复杂度,具体为:

6.1、根据上一区的j值,按顺序依次计算当前区的统计量及对应的相似因子;若过程中存在某相似因子小于指定阈值,令当前区的推荐压缩方法=上一区的压缩方法;

6.2、否则,获取当前区的其它统计信息,重复步骤5中选择压缩方法的过程,获取当前区的压缩方法。

本发明的优点是:提供了一种基于列存储的压缩方法,按区进行压缩,并设计了高效的压缩策略选择方法,能够有效的支持面向列存储的海量数据管理。

具体实施方式

为使本发明更明显易懂,兹以一优选实施例详细说明如下。

本发明提供了一种基于列存储的区级数据压缩方法,其步骤为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210019945.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top