[发明专利]用于数据压缩的数据值出现信息有效
申请号: | 201080059819.5 | 申请日: | 2010-12-07 |
公开(公告)号: | CN102687404A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 李天超;O·德雷泽;P·本德尔;N·赫尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 吴立明;李峥宇 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据压缩 数据 出现 信息 | ||
技术领域
本发明总体上涉及数据压缩和数据编码。特别地,本发明涉及生成要被编码或者压缩的数据集中的数据值的出现(occurrence)信息。
背景技术
数据压缩是各种计算和存储系统的重要方面。此处,作为一个系统示例而详细地讨论数据仓库,其中数据压缩是相关的,但是可以理解,在存储大量数据的多种其他系统中,数据压缩和经压缩的数据的有效处理是相关的。数据仓库是组织的电子存储的数据的仓储。数据仓库被设计为支持报告和分析。
采用用于查询的快速处理的表扫描的数据仓库的有效性依赖于数据的有效压缩。利用恰当的数据压缩方法,表扫描可以直接应用于经压缩的数据,而不是必须首先解码每个值。而且,设计良好的算法可以在每个循环中在被封装为一个词大小的多个经压缩的值上进行扫描。因此,较短的代码通常意味着较快的表扫描。以下压缩方法是公知的。基于词典的压缩利用词典代码来编码来自较大值空间但是相对小很多的实际值集(基数)的值。基于偏移的压缩通过从原始值中的每一个中减去基准值来对数据进行压缩,并且使用其余偏移来表示原始值。前缀-偏移压缩通过将其二进制表示分为前缀比特和偏移比特来对值进行编码,并且将前缀比特与偏移比特的词典代码连接为编码代码。
压缩效率的最重要标准之一是平均码长度,该平均码长度是经压缩的数据的总大小除以其中的值的数目。实现较好的压缩效率(即,较小的平均码长度)的一种方式是利用较短码来对具有较高概率的值进行编码。
存在多种编码技术,其对于为具有较高概率的值指派较短码的基于词典的压缩。公知的霍夫曼编码使用可变长度前缀码。在美国专利申请20090254521A1中描述的频率分区方法,其根据值的出现概率来对值进行分区并且为每个分区的值指派固定长度的词典码,其中分区包含较多的具有较短码长度的频率值。
在图1的表中示出使用公知的霍夫曼代码的一个示例;在该示例中,要被压缩的数据如下:{apple,apple,orange,banana,orange,banana,apple,peach,banana,apple}。该表示出了如何首先对每个离散值的出现进行计数以便计算概率,并且继而指派压缩码。这仅在离散值的量有限的情况下可行,以使得可以在计算机系统的存储器内建立值/计数对的完整列表。然而,当值的基数非常大时,例如,64比特整数具有264(~1.8E19)个可能值时,不是这种情况。
针对前缀-偏移压缩,当在词典中对前缀比特进行编码时,此类概率相关编码技术也可以应用于改进编码效率。也已知的是,降低偏移比特的长度可以有益于压缩效率,但是其具有存储器设置的上限(因为每个离散前缀码需要在词典内进行维护),并且偏移部分中通常总是浪费某些比特,因为从不会使用特定组合。实际上,如果可以使用无限的存储器,则前缀-偏移压缩总是不如单纯的基于词典的压缩有效,单纯的基于词典的压缩可以视作使用最大数目的前缀比特和零偏移比特的前缀-偏移压缩的极端情况。
基于偏移的压缩完全不考虑值概率。虽然其也从来不会比单纯的基于词典的压缩有效,但是根据原始值的属性,其编码效率可以比前缀-偏移压缩更好或者更差——相同的共同基准值可以应用于原始值中的所有值以导出可以有效存储的偏移。另外,由于其对于数值稳定性的隐含需求,其可应用性仅限制于特定数据类型。
因此,可期望的是,在特定存储器约束下,使用以上提到的不同数据压缩方法的混合来获得最佳压缩。图2示出了这样的一种混合压缩方法,其中可以针对最频繁的值(图2的上半部分)应用基于词典的压缩,并且可以针对较不频繁的值(图2的中间部分)应用前缀-偏移压缩,以及在适当的时候可以针对其余的值应用基于偏移的压缩(图2的下半部分)。备选地,当基于偏移的压缩不可应用或者无益时,可以不压缩不常见的值。通过限制所涉及的两个词典(一个用于基于词典的压缩,一个用于前缀-偏移压缩)的大小,仍然可以控制存储器使用。
为了能够确定哪个数据压缩方法用于数据集中的哪些值,应当确定数据集中的所有区别值的频率。这对于可能包含太字节的数据并且包含数百万区别值的大数据集来说存在挑战。可用的存储器可能不足以用于存储出现信息,并且在很多情况下,使用磁盘空间来存储出现信息是不可行的。由此,应用此类混合压缩方法的主要困难在于:在不能够构造每个个体值的出现的完整表的情况下,如何将数据分区为最频繁值、较不频繁值和不频繁值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080059819.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工件移位装置
- 下一篇:具有能量收集器件的传感器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置