[发明专利]一种适应大数据应用的快速重复数据删除方法有效

申请号：	201310228696.9	申请日：	2013-06-08
公开（公告）号：	CN103324699A	公开（公告）日：	2013-09-25
发明（设计）人：	张兴军;朱国峰;董小社;朱跃光;王龙翔;姜晓夏	申请（专利权）人：	西安交通大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F11/14
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	蔡和平
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适应数据应用快速重复删除方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机信息存储技术领域，特别涉及一种适应大数据应用的快速重复数据删除方法。

背景技术

信息时代，随着数据的裂变式增长，导致大数据时代来临。所谓大数据，即满足以下特点：数据体量巨大、类型繁多、价值密度低和产生速度快等。大数据时代，在数据的备份和存储过程中存在着大量冗余数据，如何消除备份过程中的重复数据以减少存储空间和网络带宽消耗已经成为存储领域一个热门研究课题。

消除备份过程中的冗余数据最有效的方式是采用重复数据删除技术。一般认为，重复数据删除技术包括面向文件级别的全文件去重技术和面向块级别的固定长度分块技术及变长分块去重技术。全文件去重技术通过比较文件的元数据信息，对整个文件进行去重检测，仅存储多个相同文件中的一个副本，冗余文件通过指针映射到该副本文件。其仅能识别文件之间的冗余数据，去重速率快但去重率低，较适用于E-mail系统、文件系统等存在大量相同文件的应用环境中。固定长度分块去重技术通告一个固定长度对文件流进行分块，计算分块后的hash值，然后通过查找hash表对hash值进行去重检测，存储节点仅存储hash值不存在的数据块。其可同时识别文件内部和文件之间的冗余数据，但对数据修改敏感，即数据一经修改便无法有效检测出冗余信息，去重速率快但去重率仍偏低。变长分块技术主要是指一种基于内容识别的分块技术，它由一个固定大小窗口按字节在文件流上滑动，每滑动一个字节计算一次该窗口内数据的弱hash值，同时判断该弱hash值是否满足预先设定的条件，若满足，则记录该偏移位置，并且设其为一个边界点；否则，继续滑动窗口。直到找到两个边界点，取两个边界点之间的数据形成一个数据块，计算该数据块的强hash值，然后对该强hash值进行去重检测，仅存储该hash值不存在的数据块且更新hash表。其针对易修改数据，能够有效检测出冗余数据，但由于窗口滑动过程中频繁计算指纹值，去重速率低，不适宜大数据应用环境。

综上所述，上述去重方法均有自己的局限性，单一的去重方法不能有效适应复杂多变的应用环境。

发明内容

本发明针对复杂多变的备份应用环境，提出了一种适应大数据应用的快速重复数据删除方法，通过调节去重因子和加速因子，可以快速消除文件内部和文件之间的冗余数据，从而降低了备份去重系统的备份窗口和存储开销。

为了实现上述目的，本发明采用如下技术方案：

一种适应大数据应用的快速重复数据删除方法，包括以下步骤：

（1）用户定制备份任务，形成备份文件流；

（2）通过一个固定长度窗口在备份文件流上按字节进行滑动，每滑动一个字节就采用RabinHash函数计算一次窗口内数据指纹值，记为rhashvalue；

（3）判断步骤（2）所计算的指纹值是否满足边界点条件：rhashvalue%D=r；其中，D为除数，其值随机确定；r为模数，取值为D-1；若不满足，则转入步骤（2）继续进行滑动窗口；若满足，则转入步骤（4）；

（4）以步骤（3）找到的满足边界点条件的窗口位置为界对备份文件流进行划分，形成CDC变长块，同时记录变长块个数以及当前边界点位置，同时进入步骤（5）和（8）；

（5）判断备份文件流是否划分结束，若结束，则整个分块过程结束；若未结束，则进入步骤（6）；

（6）判断CDC变长块个数是否等于去重因子，若不相等，则转入步骤（2）继续滑动窗口；若相等，则进入步骤（7）；

（7）清零CDC变长块个数，即重新开始计数，并且从上一个划分的块的边界点位置开始按加速因子进行固定长度分块，同时进入步骤（5）和步骤（8）；