[发明专利]高度可伸缩和分布式重复数据删除有效
申请号: | 201180024508.X | 申请日: | 2011-03-16 |
公开(公告)号: | CN102985911A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | S.贾因;P.乔德利 | 申请(专利权)人: | 科派恩股份有限公司 |
主分类号: | G06F12/06 | 分类号: | G06F12/06 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 高巍 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高度 伸缩 分布式 重复 数据 删除 | ||
相关申请的交叉引用
本申请权利要求于2010年3月16日提交的美国临时专利申请61/314,293的优先权,此处引用该申请的全部内容以作参考。本公开还涉及2009年12月18日提交的美国专利申请序列号No.12/642,023和公开为美国公开No.2010/0161608A1中的公开内容,此处引用其内容以做参考。
发明领域
本公开涉及数据管理系统,且更具体而言涉及维护这种系统中的引用完整性。
背景技术
现代计算机系统支持快速增长的海量数据;实际上,在很多情况中,这种增长太快,甚至存在超越存储系统容量的威胁。这种增长不仅需要在较新和较大的存储系统中的连续投资,还需要相应增加管理这些系统的成本。减小公司内的存储量是非常令人期望的,因为存储可以明显减小公司的资金和运行花费。
存储在大多数大规模存储系统中的数据的一个特征是存在巨大数量的数据重复。示例包括重复文件、稍有不同的文件(例如文档的多个草稿)、被存储在多个文档中的相同图像、应用于报告的相同模板或信纸。尽管存在可以检查相同文件且仅保存它们一次的一些系统,典型的系统仍需要存储大量的重复数据。例如,实际上,公司中的每个文档具有嵌入在其中的公司标志,但是当今的存储技术不能针对标志识别在每个文档中重复的相同的数据且不能在存储上对此做节省。
人们不断强调子文件重复数据删除来在子文件级检测重复数据以减小用于主存储以及使用相似备份和归档的辅助存储的存储和网络足迹。近年来,已经设计了可以在子文件级检测重复数据的各种系统。重复数据删除系统典型地创建文件或块存储的一个或更多“厚块”(chunk),直到被分析以用于重复数据删除且然后采用一个或更多比较方法来检测是否产生重复厚块。
附图说明
图1说明根据一些实施例维护从重复数据删除系统去除未引用块的引用数的方法。
图2说明根据一些实施例用于更新块存在时间的方法,其支持以不依赖于块的引用数的方式从重复数据删除系统去除未引用块。
图3说明根据一些实施例以不依赖于块的引用数的方式从重复数据删除系统去除未引用块的方法。
图4说明根据一些实施例以不依赖于块的引用数的方式在重复数据删除系统中添加新文件校验和的方法。
概览
涉及在存储系统中将数据表达为厚块的一个问题是如何管理去除不再被需要代表存储在系统中的任意数据的厚块。考虑何时去除块包括确定未引用(未使用)厚块何时存在、何时释放与未引用厚块相关的存储以及如何以不过分减损系统性能的方式去除未引用厚块。
如结合的美国公开No.2010/0161608A1的文本和附图所描述,在存储系统中将数据表达为厚块可以包括以下一个步骤或多个步骤,应用这些步骤以从需要被进行数据重复数据删除的给定数字数据片(是否基于文件、块、BLOB或流)创建厚块:
1.通过应用关于存储或发送数字数据的各种格式的知识,将给定数字数据分裂或“分块”(chunk)到“整个”逻辑对象中。例如,文档中的图像可能是以针对该文档的特定格式存储的“整个”逻辑对象。文件格式包括诸如.ppt、.doc、.xls、.pptx、.docx、.xlsx、.pdf、.xml、.epp、.one、.mdb和.a格式的示例。
2.处理“分裂的”对象:如果逻辑对象物理上不是连续的存储/流块,则组装逻辑对象。有时,在存储逻辑对象的同时,逻辑对象可以分裂成很多小的子对象,这些小的子对象可以分散在多个存储块中。在这种情况中,在识别所有这种子对象且以正确顺序集合它们之后形成逻辑对象。
3.去除应用于逻辑对象的任意格式专用变换。例如,如果逻辑对象以压缩格式存储在存储单元中,则该逻辑对象在被用作用于重复数据删除的厚块之前首先被解压缩。类似地,如果逻辑对象存储为加密形式,则该逻辑对象在被用作用于重复数据删除的厚块之前被解密。
4.去除附加到逻辑对象的任意格式专用报头/报尾(footer)。大多数数字数据格式要么在具有在逻辑对象前面具有报头、要么作为逻辑对象的部分或在将逻辑对象插入到所述数字数据之后附加报尾。
5.从逻辑块去除任意位置专用数据和元数据。很多数字数据格式在逻辑数据内或在逻辑数据附近存储位置数据,例如,幻灯片文档中的幻灯片数。
6.如果对象恰好是文件对象,则首先集合文件对象且然后使用上述步骤提取逻辑对象。这使得人们发现以比如.PSZ/.ZIP之类的混合文件格式嵌入的文件对象内的相同对象,例如图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科派恩股份有限公司,未经科派恩股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180024508.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静脉输液一次性无菌输液拆换管
- 下一篇:小儿消食丸