[发明专利]一种基于图像识别的文件压缩及解压缩处理方法无效

申请号：	200910042172.4	申请日：	2009-08-26
公开（公告）号：	CN101630415A	公开（公告）日：	2010-01-20
发明（设计）人：	罗笑南;郝晓;文允	申请（专利权）人：	中山大学
主分类号：	G06T9/00	分类号：	G06T9/00;G06F17/22
代理公司：	暂无信息	代理人：	暂无信息
地址：	510006广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图像识别文件压缩解压缩处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及文件信息处理技术领域，特别是涉及一种基于图像识别的文件压缩及解压缩处理方法。

背景技术

压缩文件的基本原理是查找文件内的重复字节，并建立一个相同字节的“词典”文件，并用一个代码表示，比如在文件里有几处有一个相同的词“中华人民共和国”用一个代码表示并写入“词典”文件，这样就可以达到缩小文件的目的。

通过合理的数学计算公式，文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。总的来说，压缩可以分为有损和无损压缩两种。有损压缩广泛应用于动画、声音和图像文件中，典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。但是更多情况下压缩数据必须准确无误，人们便设计出了无损压缩格式，比如常见的zip、rar等。

压缩软件(compression software)自然就是利用压缩原理压缩数据的工具，压缩后所生成的文件称为压缩包(archive)，体积只有原来的几分之一甚至更小。当然，压缩包已经是另一种文件格式了，如果你想使用其中的数据，首先得用压缩软件把数据还原，这个过程称作解压缩。常见的压缩软件有winzip、winrar等。

由于解压缩是压缩的逆向过程，一般的解压缩过程也是一次性将文件读入内存，并通过逆向的算法过程，将文件整个进行还原。为了节省空间，一般文档采用压缩后的存储方式，当文档内容很多，特别是存在大量图片的时候，一次性的解压缩过程将需要占用很大的时间，造成了浏览上的不便。

发明内容

本发明的目的在于克服现有文件压缩及解压缩处理上的不足，提出一种基于图像识别的文件压缩及解压缩处理方法。

为了实现发明目的，采用的技术方案如下：

一种基于图像识别的文件压缩处理方法，包括了以下的步骤：

1)将文件进行内容识别，并划分为文本区和图片区；

2)图片以标签的形式存储在文本区，其图像像素信息存储在对应的图片区；

3)文本区和图片区进行压缩，文本区采用无损压缩的方法，图片区可采用有损压缩的方法，然后把将压缩后的文本区和图片区合并成新的文件。

步骤1)和2)所述的文件内容识别，通过解析文件的数据，如果是文本信息，则将文件中的文本信息存储到文本区，如果解析的是图片信息，则生成一个图片的文本标签，并将该图片标签存储到文本区，此外，生成该图片的图像像素信息，与图片标签相对应，保存到文件的图片区。

步骤3)所述的压缩方法中，文本区的内容，由于文本信息的重要性，采用的是无损压缩的方法，由于在压缩图片时，采用无损压缩一般压缩效果不明显，因此可以将图片进行转化，如将BMP的图片转化成JPG格式的图片，然后再进行压缩，增大压缩量。

一种基于图像识别的文件解压缩处理方法，包括以下步骤：

1)对文本区进行解压缩；