[发明专利]一种面向重复数据删除技术的指纹预取方法及系统有效
申请号: | 201310246927.9 | 申请日: | 2013-06-19 |
公开(公告)号: | CN103345449A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 邓玉辉;宋梁山 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F12/08 | 分类号: | G06F12/08;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨晓松 |
地址: | 510632 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 重复 数据 删除 技术 指纹 方法 系统 | ||
1.一种面向重复数据删除技术的指纹预取方法,其特征在于,包括下述步骤:
(1)、对于备份文件,利用一个固定大小的滑动窗口,计算窗口内的Rabin指纹,抽取样本数据块,并根据每个样本数据块的内容计算出一个指纹,将所有样本数据块的指纹顺序合并成一个长字符串,成为该文件的特征指纹,代表着该文件;
(2)根据步骤(1)中计算得到文件的特征指纹到系统中检索,如果检索到系统中存在相似文件,则记录该文件的指纹在指纹库中的起始位置,并执行步骤(3)操作,如果系统中不存在相似文件则执行步骤(4)操作;
(3)、找到该文件的指纹在指纹库中的起始位置,将文件的数据块指纹读取到cache中,执行步骤(5)操作;
(4)、从最近一次指纹库中的访问位置开始,预取一定量指纹到cache中;
(5)、采用固定分块、基于内容的分块或者滑动分块其中一种分块算法对当前文件进行切块;
(6)、得到切分好的数据块,根据数据块内容使用hash函数计算该数据块的指纹,并将计算得到的指纹在指纹库进行检索,如果检索匹配成功,则执行步骤(8)操作,否则执行步骤(7)操作;
(7)、将当前指纹加入指纹库,分配数据块ID,并将该唯一数据块内容写入磁盘;
(8)写入数据块的ID信息,并更新相关元数据信息。
2.根据权利要求2所述的面向重复数据删除技术的指纹预取方法,其特征在于,步骤(1)具体为:
利用一个固定大小的滑动窗口,计算窗口内的Rabin指纹,如果该指纹已存储,则将该窗口内的数据作为一个样本数据块,否则,判断滑动窗口移过的距离是否超过预先设定的最大值,如果没有超过最大值,则将滑动窗口向右移动一个字节,如果超过最大值则将该窗口内的数据作为一个样本数据块。
3.根据权利1要求所述的一种面向重复数据删除技术的指纹预取方法,其特征在于,指纹是按照数据流的顺序而顺序的存储在磁盘上。
4.根据权利1要求所述的一种面向重复数据删除技术的指纹预取方法,其特征在于,内存中定义一个hash表,用于记录每个文件对应的特征指纹及其在指纹库中的位置信息。
5.根据权利1要求所述的一种面向重复数据删除技术的指纹预取方法,其特征在于,对指纹的预取操作是在该文件的数据块指纹查找之前进行的。
6.根据权利1要求所述的一种面向重复数据删除技术的指纹预取方法,其特征是:指纹预取的操作是由另外一个进程或线程进行的。
7.根据权利1要求所述的一种面向重复数据删除技术的指纹预取方法,其特征在于,步骤(7)中还包括:对唯一数据块的指纹在磁盘上的分布进行顺序的排列,同一文件的所有唯一数据块指纹均连续存放在磁盘上,数据流中各个文件的指纹也是按照流中的顺序存储在磁盘上。
8.一种面向重复数据删除技术的指纹预取系统,其特征在于,包括顺序排列模块、相似文件鉴定模块以及指纹预取模块;
所述顺序排列模块,用于对唯一数据块的指纹在磁盘上的分布进行顺序的排列,同一文件的所有唯一数据块指纹均连续存放在磁盘上,数据流中各个文件的指纹也是按照流中的顺序存储在磁盘上;
所述相似文件鉴定模块,用于抽取文件中的一部分样本数据块并计算指纹,得到当前文件的特征指纹,并与系统中已有的文件特征指纹对比,匹配成功则认为系统中存在与之相似的文件,否则认为系统中不存在与当前文件相似的文件;
所述指纹预取模块,用于将后续可能要访问的指纹从磁盘上预先读取到cache中,提高cache中指纹的命中率。
9.根据权利要求8所述的面向重复数据删除技术的指纹预取系统,其特征在于,还包括分块模块、指纹计算模块和指纹查找模块,所述分块模块、指纹计算模块和指纹查找模块顺序连接;
所述分块模块用于对文件进行切块,使用固定大小分块、基于内容可变长度分块和滑动窗口三种算法之一将整个文件分成一组数据块;
所述指纹计算模块用于将每个数据块使用hash算法计算得到一个指纹,唯一标识该数据块;
所述指纹查找模块用于判断数据块是否为重复的数据块,如果查找指纹存在,则认为该指纹对应的数据块是重复的数据块;否则认为该数据块是一个新的数据块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310246927.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置