[发明专利]一种数据压缩、解压方法、装置、电子设备和存储介质在审
申请号: | 202010075840.X | 申请日: | 2020-01-22 |
公开(公告)号: | CN113157655A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 袁逸凡;李慧霸 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据压缩 解压 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种数据压缩、解压方法、装置、电子设备和存储介质,所述方法包括:获取待压缩数据以及压缩参数;所述压缩参数包括压缩算法标识符和分段单位;按照所述分段单位对所述待压缩数据进行分段,生成多个分段压缩数据;采用所述压缩算法标识符对应的压缩算法,将所述分段压缩数据压缩成多个数据块;所述数据块具有大小信息;基于所述压缩参数、所述数据块及其大小信息,生成压缩数据。本申请实施例可以实现根据压缩参数确定压缩算法,并采用确定的压缩算法对待压缩数据划分的分段压缩数据进行压缩,从而提供一种支持多压缩算法的压缩数据的方法。
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据压缩、解压方法、装置、电子设备和存储介质。
背景技术
在科学计算环境中,常常需要在计算机上存储或者在计算机之间传输大量数据。
数据压缩技术的基本思想是通过对待压缩数据中重复数据用占用空间较少的符号或代码来代替,使得压缩后的数据占用更少的磁盘存储控件或更短的传输时间。
gzip是linux里最流行的压缩格式之一。gzip压缩格式缺点是对于文件局部数据的随机访问,需要对整个文件进行解压缩。stargz是针对tar.gz格式无法随机访问提出的改进压缩格式格式。采用stargz格式对大文件处理时,先将文件切分成若干块,再用tar.gz对各块进行压缩,根据各块的偏移和长度记录索引以实现对文件的随机访问。但是stargz压缩格式在于仅仅是对tar.gz格式的改进,而不支持其他压缩算法。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据压缩、数据解压方法、数据压缩装置、数据解压装置、电子设备和存储介质。
为了解决上述问题,本申请公开了一种数据压缩方法,包括:
获取待压缩数据以及压缩参数;所述压缩参数包括压缩算法标识符和分段单位;
按照所述分段单位对所述待压缩数据进行分段,生成多个分段压缩数据;
采用所述压缩算法标识符对应的压缩算法,将所述分段压缩数据压缩成多个数据块;所述数据块具有大小信息;
基于所述压缩参数、所述数据块及其大小信息,生成压缩数据。
可选地,所述方法还包括:
确定所述待压缩数据的特征参数;
依据所述特征参数和所述压缩参数,生成头信息。
可选地,所述数据块还具有排序信息;所述方法还包括:
采用所述排序信息和所述大小信息,生成跳转表。
可选地,所述跳转表具有容量信息,所述方法还包括:
确定所述跳转表相对于所述头信息的地址偏移量;
依据所述头信息、所述跳转表的容量信息,以及所述地址偏移量,生成尾注信息。
可选地,所述基于所述压缩参数、所述数据块及其大小信息,生成压缩数据的步骤,包括:
将所述头信息、所述数据块、所述跳转表以及所述尾注信息,封装成压缩数据。
可选地,所述方法还包括:
判断所述压缩算法标识符是否与预设字典算法标识匹配;
若是,则生成与所述待压缩数据匹配的字典信息。
可选地,所述基于所述压缩参数、所述数据块及其大小信息,生成压缩数据的步骤,包括:
将所述头信息、所述字典信息、所述数据块、所述跳转表以及所述尾注信息,封装成压缩数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010075840.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种运维模板的生成方法和装置
- 下一篇:一种参考信号发送方法、设备及系统