[发明专利]一种可扩展的重复数据检测方法有效

专利信息
申请号: 201310028726.1 申请日: 2013-01-25
公开(公告)号: CN103970744A 公开(公告)日: 2014-08-06
发明(设计)人: 王桦;周可;李春花;张攀峰;魏建生 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心 42201 代理人: 方放
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 扩展 重复 数据 检测 方法
【说明书】:

技术领域

发明属于计算机存储技术领域,具体涉及一种可扩展的重复数据检测方法。

背景技术

1998年,Jim Gray在获颁计算机图灵奖时的演讲中总结“信息产业在过去100年中呈指数增长态势”,并根据“摩尔定律”提出新经验定律“未来每18个月全球新增存储容量是有史以来全部存储容量的总和”。从2007年起,IDC公司与EMC公司连续五年合作发布信息存储市场调研报告,测算数据显示全球创造和复制的数字信息总量从2006年的161EB(exabytes)增加到2011年的1.8ZB(zettabytes),其中2007年全球数字信息总量首次超过可用存储容量,且两者之间的差异仍在逐年扩大。同时,IDC公司调研报告显示现存约75%的数据为副本信息,即仅有25%的数据具有唯一性。在此背景下,数据去重作为在较大空间范围内侦测和消除冗余信息的一种新型技术成为近几年学术界和工业界的研究热点,并正被愈加广泛地应用到各种信息存储系统。数据去重(Data Deduplication)是在数据集或数据流中发现和消除重复内容以提高数据的存储和/或传输效率的过程,又称重复数据删除(Duplicate Data Elimination),简称去重或重删。

重复数据元素的检测是实现数据去重的重要技术手段。随着数据规模的扩大,其索引信息量也会持续增长甚至超过可用内存容量。若索引信息被迫转储到硬盘,则查找和识别重复数据元素会遇到硬盘访问性能瓶颈,因此有必要研究支持重复元素快速检测的高效索引机制。

目前主要通过利用数据指纹、数据局部性、数据相似性和缓存技术等加速重复数据的检索。下面列举一些有代表性的可扩展重复数据检测方法。

2009年,NEC实验室的CezaryDubnicki等在HYDRAstor存储系统中提出按指纹前缀将数据块分布到负责不同指纹空间的虚拟超级节点(Supernode)中,并在各个超级节点中分别消除重复内容。通过细分指纹空间和迁移数据,HYDRAstor可以随时添加新的存储节点实现扩容,但扩容时面临大量的数据迁移。见Dubnicki C,Gryz L,Heldt L,et al.HYDRAstor:a Scalable Secondary Storage.In:Proceedings of the7th USENIX Conference on File and Storage Technologies(FAST),San Francisco,CA,USA,2009,197-210。

2009年,HP实验室的Deepavali Bhagwat等提出Extreme Binning分布式去重方案。Extreme Binning分布式去重方案从每个文件的分块指纹序列中选择最小值作为文件的特征指纹(Representative Fingerprint),共享相同的特征指纹的文件被聚合到一个去重域中,同时以文件的特征指纹作为该去重域的标识符。当需要扩展到多个节点时,Extreme Binning将去重域的特征指纹空间划分为多个区,并分别映射到各个节点。该方法易于扩展,但无法消除不同去重域之间的重复数据,因而是一种近似的去重解决方案,见Bhagwat D,Eshghi K,Long DDE,et al.Extreme Binning:Scalable,Parallel Deduplication for Chunk-based File Backup.In:Proceedings of the17th IEEE/ACM International Symposium on Modelling,Analysis and Simulation of Computer and Telecommunication Systems(MASCOTS),London,UK,2009,237-245。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310028726.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top