[发明专利]一种可扩展的重复数据检测方法有效
申请号: | 201310028726.1 | 申请日: | 2013-01-25 |
公开(公告)号: | CN103970744A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 王桦;周可;李春花;张攀峰;魏建生 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 方放 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 重复 数据 检测 方法 | ||
技术领域
本发明属于计算机存储技术领域,具体涉及一种可扩展的重复数据检测方法。
背景技术
1998年,Jim Gray在获颁计算机图灵奖时的演讲中总结“信息产业在过去100年中呈指数增长态势”,并根据“摩尔定律”提出新经验定律“未来每18个月全球新增存储容量是有史以来全部存储容量的总和”。从2007年起,IDC公司与EMC公司连续五年合作发布信息存储市场调研报告,测算数据显示全球创造和复制的数字信息总量从2006年的161EB(exabytes)增加到2011年的1.8ZB(zettabytes),其中2007年全球数字信息总量首次超过可用存储容量,且两者之间的差异仍在逐年扩大。同时,IDC公司调研报告显示现存约75%的数据为副本信息,即仅有25%的数据具有唯一性。在此背景下,数据去重作为在较大空间范围内侦测和消除冗余信息的一种新型技术成为近几年学术界和工业界的研究热点,并正被愈加广泛地应用到各种信息存储系统。数据去重(Data Deduplication)是在数据集或数据流中发现和消除重复内容以提高数据的存储和/或传输效率的过程,又称重复数据删除(Duplicate Data Elimination),简称去重或重删。
重复数据元素的检测是实现数据去重的重要技术手段。随着数据规模的扩大,其索引信息量也会持续增长甚至超过可用内存容量。若索引信息被迫转储到硬盘,则查找和识别重复数据元素会遇到硬盘访问性能瓶颈,因此有必要研究支持重复元素快速检测的高效索引机制。
目前主要通过利用数据指纹、数据局部性、数据相似性和缓存技术等加速重复数据的检索。下面列举一些有代表性的可扩展重复数据检测方法。
2009年,NEC实验室的CezaryDubnicki等在HYDRAstor存储系统中提出按指纹前缀将数据块分布到负责不同指纹空间的虚拟超级节点(Supernode)中,并在各个超级节点中分别消除重复内容。通过细分指纹空间和迁移数据,HYDRAstor可以随时添加新的存储节点实现扩容,但扩容时面临大量的数据迁移。见Dubnicki C,Gryz L,Heldt L,et al.HYDRAstor:a Scalable Secondary Storage.In:Proceedings of the7th USENIX Conference on File and Storage Technologies(FAST),San Francisco,CA,USA,2009,197-210。
2009年,HP实验室的Deepavali Bhagwat等提出Extreme Binning分布式去重方案。Extreme Binning分布式去重方案从每个文件的分块指纹序列中选择最小值作为文件的特征指纹(Representative Fingerprint),共享相同的特征指纹的文件被聚合到一个去重域中,同时以文件的特征指纹作为该去重域的标识符。当需要扩展到多个节点时,Extreme Binning将去重域的特征指纹空间划分为多个区,并分别映射到各个节点。该方法易于扩展,但无法消除不同去重域之间的重复数据,因而是一种近似的去重解决方案,见Bhagwat D,Eshghi K,Long DDE,et al.Extreme Binning:Scalable,Parallel Deduplication for Chunk-based File Backup.In:Proceedings of the17th IEEE/ACM International Symposium on Modelling,Analysis and Simulation of Computer and Telecommunication Systems(MASCOTS),London,UK,2009,237-245。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310028726.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油箱口盖板
- 下一篇:结构强度高的车身骨架管材
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置