[发明专利]一种通用数据gz格式的多线程压缩与解压方法及装置在审

专利信息
申请号: 201711389584.6 申请日: 2017-12-21
公开(公告)号: CN108134609A 公开(公告)日: 2018-06-08
发明(设计)人: 朱泽轩;孙怡雯 申请(专利权)人: 深圳大学
主分类号: H03M7/30 分类号: H03M7/30;H03M13/00;G06F9/50;G06F9/48
代理公司: 深圳市恒申知识产权事务所(普通合伙) 44312 代理人: 王利彬
地址: 518060 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 解压 压缩 原始数据 多线程 写入 列表信息 通用数据 数据块 线程 数据处理技术 读取 压缩数据块 分块处理 解压缩 文件头 磁盘 串联
【说明书】:

发明适用于数据处理技术领域,提供了一种通用数据gz格式的多线程压缩与解压方法,压缩的步骤为,先将输入的原始数据分块处理,然后利用N1个线程分别压缩数据块,得到M份压缩后的数据gzDi和对应的size(gzDi),最后将gzDi写入磁盘,其中,M份size(gzDi)写入gz格式的文件头部分;解压缩的步骤为,先输入该压缩数据,读取写入的该size(gzDi)的列表信息,并按照该列表信息对该压缩数据进行切分,得到M份数据块;然后利用N2个线程分别解压M份该数据块,获得M份解压后的原始数据Di;最后串联解压后的该原始数据Di,得到完整的原始数据;本发明提供的方法实现了多线程压缩及多线程解压的目的。

技术领域

本发明属于数据处理技术领域,尤其涉及一种通用数据gz格式的多线程压缩与解压方法及装置。

背景技术

目前对于文本数据的通用压缩方案,主要采用gz压缩格式。而对于gz压缩格式来说,目前最广泛使用的库是zlib单线程gz压缩,与pigz(A parallel implementation ofgzip)多线程gz压缩。采用Zlib与pigz方法的gz格式压缩软件的主要缺点主要有以下两点:

1,通用gz格式压缩软件往往假定输入为单一字符流,即只有一个数据源,对于多源数据,无法很好地进行并行处理。而在大数据领域,最常见的就是多源数据,如互联网用户信息数据收集,在同一时刻可能有多份用户信息需要压缩保存到同一份文件中。在数据量足够大的时候,唯有并行处理这些数据才能满足时间要求。zlib库只是实现了最基本的单线程gz压缩与解压,而pigz则是并行的gz压缩版本,使用pigz并行压缩保存的话,会出现严重的IO竞争,导致IO资源利用率过低,因为,与pigz将压缩与写、解压缩与读绑定在一起;另外,zlib也是将压缩与写、解压缩与读绑定在一起。将压缩与写入、解压缩与读取绑定在一起,虽然简化了用户操作,但这样的使用方式不够灵活,无法根据电脑的CPU与IO性能,使用最佳的读写配置。对于计算能力远远超出IO读写能力的计算机而言,要尽可能发挥计算机的计算性能,必须将读、写操作与解压缩、压缩计算分离开来。

2,Pigz的多线程压缩软件主要实现了单一数据的分块压缩,对于解压缩,却只提供了单线程的解决方案,这使得解压时的效率受到CPU单线程计算能力的限制。而在海量数据的解压读取方面,通过并行多线程的解压方式在产业应用和学术领域也有巨大的需求,如高通量DNA测序产生上百GB的FASTA文件;但事实上在后续生物信息分析中,只能使用1个线程进行解压读取(通常HPC一个计算节点都会提供数十个线程),这实际上就大大延长了分析的时间。

发明内容

本发明提供一种通用数据gz格式的多线程压缩与解压方法及装置,旨在实现将读、写操作与解压缩、压缩计算分离开来的前提下,对原始数据进行多线程压缩,并对压缩后的数据进行多线程解压。

本发明提供了一种通用数据gz格式的多线程压缩与解压方法,包括:压缩步骤S1和解压步骤S2,其中,所述压缩步骤S1包括:

步骤S11,输入原始数据,并将所述原始数据进行分块处理,得到M份数据块;

其中,每份数据块表示为Di,i∈[0,M-1];

步骤S12,利用预置的第一线程池中的N1个线程分别压缩M份所述数据块,压缩过程中在gz格式的文件头部分预留预设空间,获得M份压缩后的数据gzDi和所述数据gzDi的大小size(gzDi);

步骤S13,按顺序将M份压缩后的所述数据gzDi写入磁盘中,并将对应的M份所述数据gzDi的size(gzDi)顺序写入所述预设空间,得到压缩数据;

其中,所述解压缩步骤S2包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711389584.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code