[发明专利]在存储云中使用去重复来管理不可变冗余文件有效
申请号: | 201280059219.8 | 申请日: | 2012-09-06 |
公开(公告)号: | CN103959264B | 公开(公告)日: | 2017-03-29 |
发明(设计)人: | G·科豪恩科尔;B·P·贾因;S·R·帕蒂尔;S·拉玛纳桑;M·B·特里瓦桑 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F13/00 | 分类号: | G06F13/00 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,赵林琳 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储 使用 重复 管理 可变 冗余 文件 | ||
技术领域
本发明总体上涉及云计算,并且更具体地涉及用于在存储云中使用去重复技术来管理冗余不可变文件的方法和系统。
背景技术
信息技术正在迅速改变并且现在形成日益触及业务和社交生活的每个方面的不可见层。称为云计算的新兴计算机模型解决互联网连接的设备的爆炸增长并且与在当今的世界中的日益增长的技术存在互补。云计算是用于实现对可以用最少的管理工作或者与服务的提供者的交互来迅速调配和释放的可配置计算资源(例如网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)共享池的便捷的、按需网络接入的服务递送模型。
云计算广泛地可伸缩、提供优异的用户体验并且以新的由因特网驱动的经济为特征。在一个方面中,云计算涉及到在云以内存储和执行业务数据,该云是跨越地理展开的互连的数据中心、计算单元和存储系统的网状物。
随着云计算的问世,概念、比如存储云已经出现。存储云是可以由客户共享的巨大存储网络而无需客户管理存储基础设施。存储云提供者通常具有单个大型存储空间,并且提供者在相同地点保持来自所有它的客户的数据,这产生多租赁和多租户环境的概念。这一存储空间通常由基于该云的全部客户共享。
数据去重复包括消除冗余数据的过程。在去重复过程中,删除重复数据从而仅留下待存储的数据的一个副本。在某些情形中,如果不断需要所有数据则仍然保持所有数据的索引编制。去重复能够减少有效存储容量,因为仅存储唯一数据。数据去重复一般可以在文件或者数据块级操作。文件级去重复消除重复文件,但是这不是很高效的去重复手段。块去重复关注文件内并且保存每个块或者位的唯一反复。使用哈希算法、比如MD5(消息摘要算法)或者SHA-1(安全哈希算法)来处理每个数据组块(chunk)。这一过程生成然后在索引中存储的用于每条数据的唯一编号。在更新文件时,仅保存改变的数据。也就是说,在仅改变文档或者演示的少数字节时,仅保存改变的块或者字节,并且改变不会构成全新文件。因此,块去重复比文件去重复节省更多存储空间。
许多文件系统和存储解决方案提供用于将文档和文件标记为不可变的设施,即意味着对于给定的时间量不能够删除或者修改文件的内容和/或文件本身或者直至满足某个其它标准才能够删除或者修改文件的内容和/或文件本身。通常,这样的要求来自合规管理的机构和行业,比如政府机构和保健部门。这样的机构和行业普遍依赖于电信行业以帮助保证符合规章,比如萨班斯法案(SOX)、健康保险流通与责任法案(HIPAA)、联邦金融机构检查委员会(FFIEC)等,这些规章规定了给定的文件集的不可变持续性。
例如在HIPAA的安全规则(例如技术防护章节)中,设定由发生事件构成的安全日志以不可变方式保藏六年。这指示被标记不可变的任何文件有高重要性或者关键价值(至少对于给定的时间段),因此保藏它的可靠性至关重要。电信行业必须通过遵循规则以维护通信记录、比如产生的语音呼叫和发送的文字消息来保证符合这些规则。电信行业又利用来自它们的基础设施的不可变文件特征,以应对对于这些规则的记录不可变性的要求。在IBM General Parallel File SystemTM(GPFSTM)中也支持这一特征,该系统是在许多存储赋予和解决方案中使用的策略聚类式文件系统。(IBM、General Parallel File System和GPFS是International Business Machines Corporation在全世界许多管辖地注册的商标)。
当在文件级完成数据去重复时,删除文件的重复副本而仅维持单个副本,并且所有其它引用指向这一单个副本。然而这与不能编辑或者删除文件的基本不可变性前提冲突。因此,去重复过程不能删除不可变文件的冗余副本。例如在需要维持通常涉及到多于一方的呼叫和文本消息的不可变记录时,电信行业通常维持相同文件的多个副本以便与不可变性的要求相符,即使这消耗额外数据存储空间并且增加管理和数据保护开销。在十个参与者之中的会议呼叫的具体示例——其中呼叫记录具有1GB的存储大小——中,电信提供者存储用于每个参与者的相同记录,并且在所有记录内维持不可变、由此消耗共计10GB空间。如果文件不是不可变的,则去重复过程可能删除文件的九个副本并且维持单个副本从而仅占用1GB空间、将有效使用存储空间减少9GB。然而在一些情形中,文件的不可变性质妨碍这样的去重复。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280059219.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种腰椎髓核钳
- 下一篇:一种五线谱教学用识谱装置