[发明专利]数据压缩技术在审
申请号: | 202110539890.3 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113688127A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | J.史;R.舍卡特;J.斯米尔尼奥斯 | 申请(专利权)人: | SAP欧洲公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;H03M7/46 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 刘虹 |
地址: | 德国瓦*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据压缩 技术 | ||
描述了用于压缩数据和便于对压缩数据的访问的技术和解决方案。压缩可以应用于数据集的适当数据子集,诸如表的列。使用各种方法,适当数据子集可以被评估为包括在要使用第一压缩技术压缩的适当数据子集的组中,其中未被选择的适当数据子集不使用第一压缩技术来压缩。数据集中的数据可以基于适当数据子集的重新排序次序而被重新排序。当至少部分适当数据子集被压缩时,对数据集中的数据进行重新排序可以改进压缩。提供了便于访问以压缩格式存储的指定数据的数据结构。
技术领域
本公开总体上涉及用于压缩数据的技术。特定的实现方式涉及用于提高压缩效率或用于更快速地从压缩数据源中检索选定数据的技术。
背景技术
软件应用,尤其是企业级软件应用,通常需要访问大量数据。存储这样的数据可能是有问题的,特别是如果期望以可由计算机快速处理的格式存储数据,诸如将数据存储在随机访问存储器(RAM)中。已经开发了各种压缩技术来存储数据,既可以将数据存储在主存储器(诸如RAM)中,也可以将数据存储在辅助存储器(诸如基于盘的技术)中。
作为特定的示例,通常期望OLAP数据库应用能够快速处理非常大的数据量。一些数据库系统(诸如位于德国沃道夫的SAP SE的SAP HANA)使用存储器内(in-memory)列存储技术。在列存储数据库中,数据以列格式在存储器中维护,其中每列包含该列的多行数据,与之相对的,在行存储数据库中逐行存储数据,在行存储数据库中,每行存储多列的数据。列存储数据库可能是有用的,包括因为列存储数据库可以利用压缩技术,诸如字典压缩和游程(run-length)编码。然而,由于大数据量以及涉及压缩数据的其他问题,诸如能够快速地定位特定数据值,改进的压缩技术以及用于管理和访问压缩数据的技术仍然具有重大意义。
发明内容
提供本概述是为了以简化的形式介绍一些概念,将在下面的详细描述中进一步描述这些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
描述了用于压缩数据和便于访问压缩数据的技术和解决方案。压缩可以被应用于数据集的适当数据子集,诸如表的列。使用各种方法,适当数据子集可以被评估为包括在要使用第一压缩技术压缩的一组适当数据子集中,其中未被选择的适当数据子集不使用第一压缩技术压缩。可以基于针对适当数据子集的重新排序次序(sequence)来对数据集中的数据进行重新排序。当至少部分适当数据子集被压缩时,对数据集中的数据进行重新排序可以改善压缩。提供了便于访问以压缩格式存储的指定数据的数据结构。
在一个方面,提供了一种用于确定要压缩的多个适当数据子集的适当数据子集的方法。特定的实现方式可以包括确定应该使用游程编码压缩的表的列和应该保持未压缩的列。
接收包括第一多个适当数据子集的数据集。在特定的示例中,数据集是表,并且第一多个适当数据子集对应于表的列。每个适当数据子集包括数据集的多个元素,其中,元素与给定适当数据子集中的相应位置相关联。例如,适当数据子集可以包括表的多个行的值。可以对表的列中的数据元素进行排序,使得可以通过从列的相同位置处的列中检索值来重构表的行。
确定第一多个适当数据子集的基数(cardinality)。基数是指适当数据子集中独特值的数量,诸如给定列中独特值的数量。第一多个适当数据子集通过对基数进行升序来重新排序。对于第一多个适当数据子集的第二多个适当数据子集的相应适当数据子集,确定第一尺寸。对于第二多个适当数据子集的相应适当数据子集,使用第一压缩技术压缩适当数据子集,以提供压缩后的适当数据子集。
对于第二多个适当数据子集的相应压缩后的适当数据子集,确定第二尺寸。对于具有小于第一尺寸的第二尺寸的第二多个适当数据子集的相应适当数据子集,将相应适当数据子集添加到要使用第一压缩技术压缩的一组适当数据子集中。
在另一个方面,提供了一种用于确定在压缩数据集的适当数据子集时使用的顺序(order)的方法。在特定的示例中,该方法可以表示确定表列的顺序,其中,该顺序用于在对表列的至少部分进行压缩之前对表的行进行重新排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SAP欧洲公司,未经SAP欧洲公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110539890.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁共振成像中的运动估计和校正
- 下一篇:用于定子芯的热绝缘部分的方法和系统