[发明专利]一种文件系统中可配置的实时透明压缩方法有效
申请号: | 201010271788.1 | 申请日: | 2010-09-03 |
公开(公告)号: | CN101957836A | 公开(公告)日: | 2011-01-26 |
发明(设计)人: | 唐力;汪东升 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件系统 配置 实时 透明 压缩 方法 | ||
技术领域
本发明涉及一种文件系统中可配置的实时透明压缩方法,属于计算机数据存储技术领域。
背景技术
随着各种数码设备的广泛应用,人们需要保存的数字化数据也日益飞速增长。数据压缩技术通过采用更适合待存储数据特点的编码机制,降低存储数据中的统计冗余度,能够起到提高存储空间利用效率和有效节省存储资源的作用。因此,各种数据压缩方法在计算机存储系统中得到了十分广泛的应用。
目前,在计算机存储系统中实现数据压缩的方法主要可分为以下两类,而无论哪类方法都存在明显不足。第一类方法是将数据压缩作为一项独立于存储系统之外的可选功能。在这类方法中,数据压缩通常被实现为工具软件的形式,首先用压缩软件对待存储的数据进行处理,然后再将处理后得到的压缩文件保存到存储系统中。在Windows操作系统下的常用压缩软件有WinZip和WinRar等,在Unix/Linux操作系统下也有很多被广泛应用的压缩工具可控选择,如gzip、bzip2和lzma等。
上述方法的缺点主要体现在以下几个方面。首先,数据压缩成为数据存储流程中的一个额外操作过程,由于用户必须主动使用压缩软件对其需要存储的文件进行压缩,因此给用户带来不便。其次,压缩后的数据必须先经过解压缩后才能访问其内容,由于压缩软件通常以一个甚至多个文件作为一次压缩过程的操作对象,这种粗粒度的压缩方法将严重损害从被压缩文件中读取数据以及向被压缩文件中写入或修改数据的灵活性和便捷性。最后,压缩和解压缩的过程都要求存储系统中有足够的空余空间才能顺利进行,这是因为在压缩和解压缩完成之前,原始数据和生成的压缩数据需要被同时保存在磁盘上,所以,如果开始时存储系统中的空余空间小于新生成的数据大小,压缩或解压缩的过程就无法顺利完成。
另一类在计算机存储系统中实现数据压缩的方法是将数据压缩内嵌入存储系统之中,所为存储系统自有的一种能力。这类方法的典型代表是各种支持压缩功能的文件系统。例如,Windows操作系统下的NTFS文件系统就支持在整个分区上或者分区中的某一文件夹上启用压缩功能,启用压缩功能后,所有存储到该分区或文件夹中的文件都会被自动压缩以节省磁盘空间,当数据被读出时又会被解压缩以恢复原状,由于压缩和解压缩的过程都是在NTFS文件系统内部完成,因此除对数据读写速度造成一定性能影响外,这种方法实现的数据压缩功能对用户几乎是完全透明的。类似地,在Linux操作系统下也有一些内在支持数据压缩的文件系统,如JFFS2和e2compr等。
然而,现有的各种支持压缩功能的文件系统也存在显著缺点。一旦启用这些文件系统中的压缩功能后,所有存储到文件系统中的文件数据都将被等同地进行压缩。然而,对不同类型的文件区别对待其实是非常必要的。因为尽管压缩操作能够显著缩小大多数文本文件占用的空间,但并不是对每个文件而言压缩都是一种明智的选择。对于某些多媒体类型的文件,例如用MPEG-2编码的视频文件和用MP3编码的音频文件,它们本身就已经在编码阶段对数据进行了高压缩比的有损压缩,这些文件中数据的统计冗余度已经被降到极低的水平,所以,当压缩文件系统中再一次对这些文件进行无损压缩算法时,不但难以有效减小这些文件的大小,甚至经常会出现压缩后的数据反而大于压缩前数据的情况。因此,压缩文件系统对这些不宜再被压缩的文件的压缩过程并不能带来有效节省存储空间的好处,再考虑到压缩过程对计算资源的额外开销以及对数据读、写性能的负面影响,现有压缩文件系统中这种不区分文件类型的盲目压缩方法无疑是不恰当且得不偿失的。
发明内容
本发明的目的是提出一种文件系统中可配置的实时透明压缩方法,通过文件系统驱动模块截获来自应用程序的创建文件和向文件中写入数据的操作命令,然后根据操作命令提供的信息和数据,实时进行数据切块和重复数据删除,并只将新产生的数据块存储到磁盘上,从而在根本上实现以数据块为基本存储单元的文件系统及其存储和组织结构,达到节省存储空间的目的。
本发明提出的文件系统中实时删除重复数据的方法,包括以下步骤:
(1)由用户根据文件的扩展名或文件的文件夹路径对文件进行分类,确定需压缩文件的种类及相应的压缩算法,并将需压缩文件的种类及相应的压缩算法存储到一个配置文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010271788.1/2.html,转载请声明来源钻瓜专利网。