[发明专利]一种数据压缩、解压缩方法及设备有效
申请号: | 201010528952.2 | 申请日: | 2010-10-28 |
公开(公告)号: | CN102457283A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | 杨含飞;马天笑 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据压缩 解压缩 方法 设备 | ||
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据压缩、解压缩方法及设备。
背景技术
在需要对大量数据进行处理的系统中,往往需要对大批量的数据进行存储和传输,数据量越大,存储和传输这些数据所占用的存储空间、计算资源以及运行时间也就越多,对数据量大、并发量高的系统而言,存储和传输大批量数据可能会降低系统性能。
为了减少存储和传输大批量数据对系统性能的影响,常用的方式是,通过压缩数据来减少存储、传输的数据量以提高数据库的读写性能以及数据的传输性能。目前常用的压缩数据的方式主要有去重压缩和差分压缩两种方式。
去重压缩方式是指:针对各数据中出现的相同字符串,只保存一个副本且记录每个相同字符串出现的位置,删除数据中重复出现的字符串,从而实现对数据的压缩。去重压缩方式对于文本格式的数据而言效果较好,特别是针对文本中有大量重复字符串的情况,效果尤为明显。
差分压缩方式是指:从一批数值型的数据中选择一个或者几个数据作为基准数据,然后计算其他数据与基准数据之间的差值,最后只存储基准数据和差值,从而实现数据的压缩。
不论是去重压缩方式还是差分压缩方式,压缩后存储的数据都是文本格式的数据,而上述两种压缩方式对于非文本格式的数据压缩效果却不明显。下面以长整型数据为例,说明去重压缩方式和差分压缩方式对非文本格式的数据的压缩效果较差的问题。
针对去重压缩方式对长整型数据的压缩:
由于去重压缩方式是对文本结构的字符串进行操作,因此,需要将长整型数据转换为字符串格式。字符串中的每个字符占用2字节,而一个长整型数据占用8字节,因此,在将长整型数据转换为字符串形式后,由于如果转换后字符的数量超过4,因此,长整型数据转换成字符串形式的数据后占用的空间反而大于原长整型数据占用的空间,甚至是原长整型数据占用空间的数倍,如原长整型数据占用的空间是8字节,而转换为字符串后占用的空间反而达到16字节。
由于长整型数据转换为字符串后增加了占用的空间,因此,即使通过去重压缩方式对转换为字符串形式的数据进行压缩减少数据量,但从整体看来,数据量减少并不明显,甚至在长整型数据转换后的字符数量较多时,通过去重压缩后的数据占用的空间多于原长整型数据占用的空间。
针对差分方式对长整型数据的压缩:
差分方式的原理是用后一个数据减去前一个数据,只存储两个数据的差值,而对于长整型数据而言,两个长整型数据相减得到的还是长整型数据,仍需要占用8字节。若将通过差分方式压缩后的长整型数据再进行去重方式的压缩效果相对较好,但差分方式压缩只对有规律性的长整型数据有效果,对于随机性较高的长整型数据的压缩效果较差。对于随机性较高的长整型数据进行差分方式压缩后再进行去重压缩的效果也不明显。
综上所述,目前对非文本形式的数据(如长整型数据)的压缩方式效果较差,需要找到一种针对非文本形式的数据(如长整型数据)的高效压缩方式,以减少一批量数据在存储、传输时对系统性能的影响。
发明内容
本申请目的在于:提供一种数据压缩、解压缩方法及设备,用以解决现有技术中存在对非文本形式的数据的压缩效果较差的问题。
一种数据压缩的方法,包括:
确定数据中部分或全部需要去除的比特位;
将所述数据的符号位信息、长度信息和剩余比特位的内容作为压缩后的内容,写入压缩数组中,其中,所述长度信息为去除或剩余的比特位的长度信息。
一种数据解压缩的方法,包括:
获得压缩数组;
根据数据总的比特位长度、压缩数组中所述数据的符号位信息、长度信息和剩余比特位的内容作为压缩后的内容,得到解压缩的数据,其中,所述长度信息为去除或剩余的比特位的长度信息。
一种数据压缩设备,包括:
确定模块,用于确定数据中部分或全部需要去除的比特位;
压缩模块,用于将所述数据的符号位信息、长度信息和剩余比特位的内容作为压缩后的内容,写入压缩数组中,其中,所述长度信息为去除或剩余的比特位的长度信息。
一种解压缩设备,包括:
获得模块,用于获得压缩数组;
解压缩模块,用于根据数据总的比特位长度、压缩数组中所述数据的符号位信息、长度信息和剩余比特位的内容作为压缩后的内容,得到解压缩的数据,其中,所述长度信息为去除或剩余的比特位的长度信息。
本申请有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010528952.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多性能安全电源线插头结构
- 下一篇:带弧形定位端子可扩充防护套