[发明专利]确定用于去重复的段边界有效
申请号: | 201280072861.X | 申请日: | 2012-05-01 |
公开(公告)号: | CN104246720A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | K.埃什希;D.M.法尔金德;M.D.利利布里奇 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F12/00 | 分类号: | G06F12/00;G06F9/06 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 马红梅;胡莉莉 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 用于 重复 边界 | ||
背景技术
管理员力求高效管理文件服务器和文件服务器资源,同时保持网络受保护以防未经授权的用户而仍对经授权的用户来说可访问。将文件存储在服务器上而不是本地存储在用户的计算机上的实践已经造成相同数据存储在相同系统中的多个位置处以及甚至在相同服务器中的多个位置处。
去重复(deduplication)是用于消除冗余数据、改善存储利用率和减小网络业务量的技术。基于存储的数据去重复检查大容量的数据并标识相同的整个文件或文件的章节,然后减少相同数据的实例的数目。例如,电子邮件系统可以包含相同的一兆字节文件附件的100个实例。每当电子邮件系统被备份时,都存储附件的100个实例中的每一个,这要求100兆字节的存储空间。利用数据去重复,仅存储附件的一个实例,因此节省99兆字节的存储空间。
附图说明
为了详细描述本发明的示例性实施例,现在将对附图做出参考,在附图中:
图1A图示了用于确定段边界的系统;
图1B图示了用于确定段边界的系统;
图2图示了用于确定段边界的方法;
图3图示了用于确定段边界的存储设备;
图4A和4B示出了确定段边界的图。
标记法和命名法
如本文所使用的,术语“组块”是指数据流的连续子集。
如本文所使用的,术语“段”是指连续组块的群组。每个段具有两个边界,一个在它的开始处并且一个在它的结尾处。
如本文所使用的,术语“散列”是指使用散列函数创建的组块的标识。
如本文所使用的,术语“块”是指与其它文件或数据流交错的文件或数据流的划分。例如,交错数据可以包括1a,2a,3a,1b,2b,1c,3b,2c,其中1a是基础流一的第一块,1b是基础流一的第二块,2a是基础流二的第一块等等。在一些情况下,块在长度上可以不同。
如本文所使用的,术语“去重复”是指在存储系统中或在存储节点处逻辑存储组块、段或数据的其它划分以使得在该系统或节点处存在每个唯一组块的仅一个物理副本(或者,在一些情况下,几个副本)的动作。例如,针对初始为空的存储节点去重复ABC、DBC和EBF(其中每个字母表示唯一组块)导致B的仅一个物理副本但是三个逻辑副本。具体地,如果针对存储位置去重复组块并且组块先前未被存储在存储位置处,则将组块物理存储在存储位置处。然而,如果针对存储位置去重复组块并且组块已经被存储在存储位置处,则不再次在存储位置处物理存储组块。在又一示例中,如果针对存储位置去重复多个组块并且组块中的仅一些已经被存储在存储位置处,则在去重复期间在存储位置处存储仅先前未被存储在存储位置处的组块。
具体实施方式
以下讨论涉及本发明的各种实施例。尽管这些实施例中的一个或多个可以是优选的,但是所公开的实施例不应当被解释为或以其它方式用作限制包括权利要求在内的本公开的范围。此外,本领域技术人员将理解,以下描述具有宽泛的应用,并且任何实施例的讨论仅仅意在例证该实施例,而不旨在暗示包括权利要求在内的本公开的范围受限于该实施例。
在基于组块的去重复期间,唯一的数据组块每一个都被物理存储一次,不论可能存在多少它们的逻辑副本。所接收的后续组块可以与所存储的组块比较,并且如果比较得到匹配,则匹配的组块不再次被物理存储。取而代之,匹配的组块可以被指向组块的单个物理副本的引用替代。访问引用的过程可以被重定向到所存储的组块的单个物理实例。以该方式使用引用导致存储节约。因为可以遍及系统多次出现相同组块,所以必须被存储在系统中或通过网络传送的数据量减少。然而,交错数据难以高效地去重复。
图1A图示了用于智能分段的系统100。交错数据是指通过交错来自不同基础源的数据而从不同基础源产生的数据流。例如,四个基础数据源A,B,C和D 180可以被交错以产生流adcccbadaaaadcb,其中a表示来自源A的数据块,b表示来自源B的数据块,c表示来自源C的数据块,并且d表示来自源D的数据块。
在不理解用于对流进行交错的格式的情况下,恢复基础源流是困难的。因为不同的备份代理由以不同方式交错数据的不同公司做出,并且因为交错的方法随时间改变,所以产生可去交错所有交错数据的系统可能不是划算的。因此,对于系统而言能够直接处置交错数据可以是有用的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280072861.X/2.html,转载请声明来源钻瓜专利网。