[发明专利]一种依托云字典基于字节的无损压缩方法在审
申请号: | 202111298722.6 | 申请日: | 2021-11-04 |
公开(公告)号: | CN114095035A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 吴昊;吴笑雯;张云;张延年;易星 | 申请(专利权)人: | 南京交通职业技术学院 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;G06F16/174 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211188 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 依托 字典 基于 字节 无损 压缩 方法 | ||
本发明公开了一种依托云字典基于字节的无损压缩方法,建立云字典并联网获取当前云字典;根据源文件计算出压缩文件或过程文件的头部字段;对源文件以字节为单位进行概率统计,通过Huffman算法生成压缩编码内容并以其为索引在云字典压缩编码内容字段获得压缩编码内容对应元组的压缩编码等级和压缩编码编号;根据对应关系压缩成二进制文件并补足为整数字节后保存为过程文件;比较压缩文件与上一次过程文件的长度,当压缩率符合要求时,以最后一次过程文件作为最终压缩文件输出。使用了远程云字典,节省了本地字典保存空间,能大幅节省压缩文件和过程文件的头部长度,使得多次压缩变得可行,经过多次压缩,对大数据能实现高压缩比的无损压缩。
技术领域
本发明涉及一种压缩方法,尤其涉及一种依托云字典基于字节的无损压缩方法。
背景技术
数据压缩分为有损压缩和无损压缩,无损压缩可分为基于统计模型和基于字典的压缩方法,基于统计模型的压缩方法每次压缩都必然要产生一个源编码和目标编码的对应表,而压缩文件的头文件要包括必要的基本信息和源编码与目标编码对应表,制约了将压缩文件反复压缩以减少文件长度的可能性。
发明内容
发明目的:针对上述现有技术的缺陷,本发明提供一种依托云字典基于字节的无损压缩方法,缩小头文件长度,对超大文件进行多次压缩,提升压缩效率。
技术方案:本发明的依托云字典基于字节的无损压缩方法包括如下步骤:
S1:建立云字典;
S2:用户提交源文件并定义最终压缩文件名称;
S3:联网获取当前云字典,计算出压缩文件或过程文件的头部字段,
S4:对源文件以字节为单位进行概率统计,通过Huffman算法,生成压缩编码内容;
S5:以压缩编码内容为索引,在云字典压缩编码内容字段中查找相同数值,获得压缩编码内容对应元组的压缩编码等级和压缩编码编号;
S6:将源文件以压缩编码编号内容中的对应关系进行压缩,将源文件替换成二进制压缩文件,按字节保存,并以二进制“0”补足为整数字节,形成过程文件;
S7:比较压缩文件的长度与上一次过程文件的长度,如生成的压缩文件长度大于等于上一次过程文件,将最后一次过程文件命名为最终压缩文件名称并输出;如压缩文件长度不符合要求,则重复S5和S6,直至压缩率符合要求。
其中建立云字典的具体步骤如下:
构建样本数据集,以样本数据集中的样本数据作为待压缩的源文件,通过Huffman算法,以字节为单位进行概率统计,生成压缩编码内容,更新压缩编码内容字段;
S11:以压缩编码等级、压缩编码编号、压缩编码内容和使用次数4个字段构建云字典数据库的空表;
S12:构建样本数据集,以样本数据集中的样本数据作为待压缩的源文件,通过Huffman算法,以字节为单位进行概率统计,生成压缩编码内容,更新压缩编码内容字段;若云字典的表中,压缩编码内容字段中有相同的值,则该元组使用次数字段的值自增1,若云字典的表中,压缩编码内容字段中没有相同的值,则在表中添加一个新的元组,将生成的压缩编码内容添加到新元组的压缩编码内容字段,按序将400字节的压缩编码编号添加到新元组的压缩编码编号字段,新元组中压缩编码等级字段的值为80,新元组中使用次数字段的值为1;
S13:对样本数据集中的全部样本数据重复S12步骤,充实云字典的表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京交通职业技术学院,未经南京交通职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111298722.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种眼科临床用靠枕结构及其使用方法
- 下一篇:一种带有清灰孔的水泥仓充气箱