[发明专利]高度可伸缩和分布式重复数据删除有效
申请号: | 201180024508.X | 申请日: | 2011-03-16 |
公开(公告)号: | CN102985911A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | S.贾因;P.乔德利 | 申请(专利权)人: | 科派恩股份有限公司 |
主分类号: | G06F12/06 | 分类号: | G06F12/06 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 高巍 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高度 伸缩 分布式 重复 数据 删除 | ||
1.一种方法包括:
在数据存储系统中将多个数字数据实例中的每一个分割成相应多个块,其中每个数字数据实例由文件标识符代表,所述文件标识符引用相应多个块中的每一个;以及
在多个块中的每一个块中,针对每个块维护最后引用校验时间戳,使得每个最后引用校验时间戳指示所述块被验证以确认该块在系统内被引用的最后时间;
针对每个文件标识符维护最后验证时间戳,使得每个最后验证时间戳指示被文件标识符引用的每个块何时被验证以确认该文件标识符引用相应块;
在与所述块相关的最后引用校验时间戳早于系统中最早的最后验证时间戳时,从数据存储系统去除所述块。
2.根据权利要求1所述的方法,其中分割多个数字数据实例中的每一个包括:
将新的数字数据实例分割成包括第一块的多个块,
至少部分地基于所述新的数字数据产生第一文件标识符;
将所述第一文件标识符与所述第一块和所述新的数字数据相关联,使得所述第一块被所述第一文件标识符引用;
在所述数据存储系统中存储所述第一文件标识符;
将所述第一文件标识符的最后验证时间戳设置为当前时间;
如果所述第一块还未被存储,则在所述数据存储系统中存储所述第一块;
确定所述系统当前是否处于去除未引用块的过程中;并且
如果所述系统当前处于去除未引用块的过程中,则将所述第一块的最后引用校验时间戳设置为当前时间。
3.根据权利要求1所述的方法,其中维护最后引用校验时间戳和针对每个文件标识符维护最后验证时间戳包括:
重复地执行块引用更新,所述块引用更新包括:
将所述数据存储系统中具有最早的最后验证时间戳的文件标识符识别为当前文件标识符,
验证所述当前文件标识符引用的每个块,使得每个这种块的最后引用校验时间戳被设置为当前时间;以及
将所述当前文件标识符的最后验证时间戳更新为当前时间。
4.根据权利要求3所述的方法,其中所述存储系统中的每个块可以存在于再循环箱或主存储箱中,且其中验证所述当前文件标识符引用的每个块包括:
如果被验证的块没有存在于所述主存储箱但存在于所述再循环箱中,则将被验证的块从所述再循环箱移回所述主存储箱;并且
如果被验证的块既没有存在于所述主存储箱也没有存在于所述再循环箱中,则将所述当前文件标识符标记为无效。
5.根据权利要求1所述的方法,其中从所述数据存储系统去除块包括:
提供所述未引用块当前处于被从所述存储系统去除的过程中的指示;
从所述数据存储系统去除最后引用校验时间戳早于最早的最后验证时间戳的块;
提供所述未引用块不再处于被从存储系统去除的过程中的指示。
6.根据权利要求5所述的方法,其中,每个块可以存在于再循环箱或主存储箱中,且其中从所述数据存储系统去除所有块包括:
针对所述主存储箱中最后引用校验时间戳早于最早的最后验证时间戳的每个块,将所述块移动到所述再循环箱且将所述块的最后引用校验时间戳设置为当前时间;以及
针对所述再循环箱中最后引用校验时间戳早于最早的最后验证时间戳的每个块,从所述再循环箱去除所述块且释放与去除的块相关的任意存储空间。
7.根据权利要求1所述的方法,其中,每个数字数据实例还被分割成相应的附加数据,其中相应多个块和附加数据在一起的组合代表实例的所有数字数据,所述附加数据包括位置相关数据、实例相关数据、格式专用报头或报尾、以及格式专用变换中的至少一个。
8.根据权利要求1所述的方法,其中,并行地执行针对每一个块维护最后引用校验时间戳,针对每个文件标识符维护最后验证时间戳,以及从所述数据存储系统中去除所述块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科派恩股份有限公司,未经科派恩股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180024508.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静脉输液一次性无菌输液拆换管
- 下一篇:小儿消食丸