[发明专利]一种面向重复数据删除技术的指纹预取方法及系统有效

专利信息
申请号: 201310246927.9 申请日: 2013-06-19
公开(公告)号: CN103345449A 公开(公告)日: 2013-10-09
发明(设计)人: 邓玉辉;宋梁山 申请(专利权)人: 暨南大学
主分类号: G06F12/08 分类号: G06F12/08;G06F17/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 杨晓松
地址: 510632 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 重复 数据 删除 技术 指纹 方法 系统
【说明书】:

技术领域

发明涉及重复数据删除的技术领域,特别涉及一种面向重复数据删除技术的指纹预取方法及系统。

背景技术

随着海量数据和大数据时代的到来,数字电视、数字摄像机、网页、视频、购物公司或大型购物网站等等,极大地加速了数据的增长速度。近几年,全球数据总量每年以超过60%的速度增长,而现在的备份数据中,很多内容都是重复冗余的。重复数据删除技术可以极大地节省存储空间,提高存储效率,由于实际存储的数据总量减少了,因此存储的时间大大减少了;同时有效控制数据的急剧增长;相应的节省了大量的存储设备,节省存储总成本和管理成本;节省数据传输的网络带宽;节省空间、电力供应、冷却等运维成本。

在重复数据删除技术的研究中,数据块指纹的检索过程对于重复数据删除系统的整体性能有着重要的影响。随着大数据和海量数据时代的到来,我们每天要处理越来越多的数据。例如,对于平均大小为4K的数据块,指纹平均信息为40字节,那么10T的唯一数据块就需要存储100G的指纹,那么对于一个存储系统而言,指纹信息将必定很大。而这些指纹显然不可能全部容纳在内存中,一种可选的办法就是将指纹存放在磁盘上,然后用cache来缓存一部分指纹,加速指纹的检索。

其中的问题是:一般通过MD5或SHA-1计算的指纹是随机的,于是数据块指纹的访问没有空间局部性。而且,由于备份工作负载通过系统流向大数据集,几乎没有时间局部性。例如像LRU的cache算法也不怎么有效。而磁盘的随机I/O比顺序I/O要慢很多倍,磁盘上的指纹检索带来了很大的开销,于是,如何有效的提高指纹检索速度成了越来越关注的研究重点和研究热点。

为此,越来越多的科学家都把重点放在如何有效的克服重复数据删除系统中的磁盘瓶颈上面。Data Domain公司采用了基于流的块排列和局部性保持技术,提到了预取指纹,当前数据块命中时,就维持目前的cache,一旦不命中,则清空缓存,并加载该容器中的所有元数据。但是该方法仅仅是利用局部性原理,来提高cache命中率。文献[极端分箱:基于数据块文件备份的可扩展的、并行的重复数据删除,Extreme binning:Scalable,parallel deduplication for chunk-based file backup]中将索引分为两层,内存中常驻的是代表性块ID,该文件的所有ID位于磁盘上的装箱内,如果文件的代表性ID命中,则将磁盘上Bin内的指纹全部装载到内存,从而每一个文件只进行一次磁盘I/O。但是,这种策略会存在指纹和数据块的重复,导致重复数据压缩率的降低。

本发明的指纹预取算法通过文件的相似性和指纹空间的局部性两个级别来保证cache的命中率。首先利用文件的相似性特点,将相似文件的所有指纹一次性预取到cache中,提高cache的命中率。如果未检测到系统中的相似文件,则根据指纹的空间局部性,从指纹库中最近访问的位置将后续可能访问到的指纹一次性预取到cache中。由于文件的相似性是通过数据块采样判定的,在很大的概率上保证两个文件大部分数据块是相同的,这种方法的指纹预取比局部性能更好的保证cache的命中率。同时,经过指纹顺序排列模块的指纹有了空间局部性,利用局部性特点继续预取指纹也可以提高cache命中率。这样,从两个层次上基本可以保证绝大部分的cache命中率,极大的减少磁盘I/O带来的开销。由于指纹是按照数据流的顺序存储在磁盘上,对于每个文件,只需要一次顺序访问磁盘而已,极大地减少了磁盘I/O和随机访问时间,可以显著的提高重复数据删除备份系统的吞吐率。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提供一种提高重复数据删除系统性能的算法,通过提前将后续可能访问到的指纹信息从磁盘读到cache中,提高了cache的命中率,避免了频繁的磁盘IO,有效的减少了指纹检索阶段的磁盘开销,提高了系统的吞吐率。

本发明的另一目的在于提供一种面向重复数据删除技术的指纹预取方法。

为了达到上述第一发明目的,本发明采用以下技术方案:

本发明面向重复数据删除技术的指纹预取方法,包括下述步骤:

(1)、对于备份文件,利用一个固定大小的滑动窗口,计算窗口内的Rabin指纹,抽取样本数据块,并根据每个样本数据块的内容计算出一个指纹,将所有样本数据块的指纹顺序合并成一个长字符串,成为该文件的特征指纹,代表着该文件;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310246927.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top