[发明专利]一种文本压缩方法在审

申请号：	201911374202.1	申请日：	2019-12-27
公开（公告）号：	CN111030702A	公开（公告）日：	2020-04-17
发明（设计）人：	陈宝远;叶洪娜	申请（专利权）人：	哈尔滨理工大学
主分类号：	H03M7/30	分类号：	H03M7/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	150080 黑龙江省哈***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明文本压缩方法属于字典压缩算法的一种应用，是根据文本的冗余度和重复性，在字典压缩算法的基础上结合有限状态熵编码在硬件平台上实现的方法，对文本进行二进制文件转换并采用哈希表存储词条的字典压缩，利用有限状态熵编码，用一个数字存储压缩前后的信息，节省内存空间，利用小数个比特记录信息，使得压缩率高、自适应强并对处理器的能力和内存开销的要求低，从而降低成本。

技术领域

本发明涉及数据压缩领域，尤其涉及一种文本压缩方法。

背景技术

在数据压缩领域，针对目前在高速数据采集系统的大容量存储和无损传输过程中，存在占用空间大、传输速度慢等问题，利用海量文本数据之间信息的冗余关系和大数据处理技术生成的编码字典，以实现海量文本的高效存储和传输。要解决以上问题，则需要对文本进行压缩。现有的哈夫曼压缩算法压缩率小，需要的统计特性强，自适应性弱，因此，需要提供一种兼顾处理器的能力和内存开销的高压缩率的文本压缩方法，改变传统压缩算法的复杂程度，提高针对海量数据压缩的效率。

哈夫曼编码是一种基于统计特性的无损压缩编码，属于变长编码的一种，该编码方法根据字符出现的概率来构建哈夫曼树。但是字典编码不需要提前预测字符的概率分布，无需有关输入数据统计量的先验信息，只需扫描字符创建编码表，用编码表中的字符的编码代替源文件中相应的字符，减少原始数据的大小，在此过程中，当字典被填满是，输入一定长比特数据流，用现有字典进行压缩，然后判断被压缩数据流的压缩比(压缩比＝输入流的大小/输出流的大小)是否大于所指定的阈值，进行清除匹配。应用字典压缩，例如：

字典列表：a＝0，b＝1，c＝2。

源文本：aaabbbccccccba。

压缩后的编码为：031527810。

压缩编码后的长度显著缩小。

发明内容

本发明为解决目前文本压缩自适应弱，对处理器的能力和内存开销的要求高的问题，进而提出一种压缩率高、自适应性强，对处理器的能力和内存开销的要求低的方法。

本发明所述方法的具体步骤如下：

步骤a、转换源文件为二进制文件，采用字典压缩，利用哈希表作为词条存储结构；

步骤b、根据字典压缩输出的结果进行统一编码；

步骤c、根据编码字典对文件在硬件平台进行操作。

本发明的有益效果：本发明根据文本的冗余度和重复性，在字典压缩算法的基础上结合有限状态熵编码在硬件平台上实现的方法，对文本进行二进制文件转换并采用哈希表存储词条的字典压缩，利用有限状态熵编码，用一个数字存储压缩前后的信息，节省内存空间，利用小数个比特记录信息，使得该方法压缩率高、自适应强并对处理器的能力和内存开销的要求低，从而降低成本。

附图说明

图1为本发明文本压缩方法的流程图。

图2为硬件平台内部模块结构图。

具体实施方式

为更进一步阐述本发明所采取的技术手段及其效果，以下结合本发明的优选实例及其附图进行详细描述。

具体实施方式一：

本发明所述方法的具体步骤如下：

步骤a、转换源文件为二进制文件，采用字典压缩，利用哈希表作为词条存储结构；

步骤b、根据字典压缩输出的结果进行统一编码；

步骤c、根据编码字典对文件在硬件平台进行操作。

具体实施方式二：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。