[发明专利]一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法有效

专利信息
申请号: 201310168444.1 申请日: 2013-05-06
公开(公告)号: CN103279502A 公开(公告)日: 2013-09-04
发明(设计)人: 周晓阳;周游 申请(专利权)人: 北京赛思信安技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京永创新实专利事务所 11121 代理人: 周长琪
地址: 100016 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 具有 并行 文件系统 结合 重复 数据 删除 架构 方法
【说明书】:

技术领域

发明属于数据存储技术领域,涉及一种透明的与重复数据删除文件系统结合的方案,具体是一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法。

背景技术

但现有的大部分并行文件系统如集群并行文件系统Lustre,蓝鲸集群文件系统BWFS等,都没有内置实现重复数据删除功能。而在这些集中存储系统中,存在大量的冗余数据信息,某些情况下冗余数据量甚至可以达到几十倍甚至上百倍,并且随着时间的推移,冗余数据量会越来越大。例如:在数据备份和归档系统中,大量文件数据变动较小,甚至存在多个副本,经过多次的归档存储,产生了大量的冗余数据;办公自动化系统中,文件流转、版本修订比较普遍,一个文件可能会被抄送给多个人,一个文件可能有多个版本,这其中有大量的重复数据;另外,邮件群发、转发也会导致大量的信息冗余。数据量的急剧增长极大地增加了数据中心的管理成本和能耗成本。因此如何缩减对数据存储空间的需求,降低数据存储成本成为一个亟待解决的难题。

重复数据删除技术(又被称为消冗技术)能够有效的识别并消除数据中的重复数据,提高存储资源的利用率,因此逐渐成为一个研究热点。

但同时通过修改已有系统或应用来支持该重复数据删除功能具有较大的难度和风险,因此如何透明地将重复数据删除技术结合到已有并行文件系统中成为一个亟待解决的问题。

发明内容

本发明针对如何透明地将重复数据删除技术结合到已有并行文件系统中的问题,提供了一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法。

本发明提供的一种具有与并行文件系统结合的重复数据删除文件系统的架构,包括客户端设备、并行文件系统集群、重复数据删除网关集群和存储设备。客户端设备之上运行业务系统,生成数据流。并行文件系统集群部署并行文件系统,并行文件系统对外提供并行文件系统访问接口。并行文件系统集群包括一个以上的并行文件系统设备,并行文件系统设备分为元数据服务器和数据服务器。重复数据删除网关集群中包括一个以上的重复数据删除网关,重复数据删除网关部署重复数据删除文件系统,对外提供重复数据删除功能,具体,重复数据删除网关上部署有重复数据删除处理引擎和数据迁移系统;重复数据删除处理引擎对并行文件系统存储的数据进行重复数据删除处理及还原处理;数据迁移系统将并行文件系统中达到迁移条件的数据迁移到重复数据删除文件系统中存储。存储设备用于存储数据信息,并与并行文件系统设备、重复数据删除网关互联。客户端设备和重复数据删除网关通过并行文件系统访问接口,对并行文件系统内的数据进行读写删除操作。

重复数据删除处理引擎对数据进行处理的方法是:首先,读取文件的数据,并对数据分块,计算每个数据块的指纹,然后,对每个数据块的指纹在数据块索引表中查询,若查询到,则该数据块已经存在,不再进行存储,否则,该数据块为新数据块,存储该数据块到数据块仓库中,并在数据块索引表中生成对应的元组。所述的数据块索引表用于数据块的查重操作,元组格式为<数据块指纹,数据块所在文件,数据块在文件内的偏移量,数据块长度,数据块引用计数>。所述的数据块仓库中用于存储不重复的数据块,设置在存储设备中。

数据迁移系统通过并行文件系统访问接口,定期扫描并行文件系统中的文件,将达到迁移条件的文件,迁移到重复数据删除文件系统的中,并在并行文件系统中为原文件建立与迁移后文件的关联,要迁移的文件通过重复数据删除处理引擎处理后存储在重复数据删除文件系统中,在数据块映射表中生成该文件对应的元组,每个元组的格式为<文件唯一标识,ChunkFP1,ChunkFP2,…,ChunkFPi,…>,其中,ChunkFPi表示第i个数据块的指纹。

客户端设备通过重复数据删除系统文件访问接口,在重复数据删除文件系统中访问从并行文件系统设备中迁移的文件,具体是:在并行文件系统中,根据原文件与迁移后文件的关联,重定向到重复数据删除系统文件中迁移后的文件,从数据块映射表中找到该文件所包含的数据块的指纹,根据数据块指纹,从数据块索引表中找到相应数据块的存储地址,从数据块仓库中读取数据,所读取的数据通过重复数据删除文件系统访问接口返回给客户端设备1。

基于上述具有与并行文件系统结合的重复数据删除文件系统的架构,本发明提供的与并行文件系统结合的重复数据删除方法,主要包括如下三方面:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术有限公司,未经北京赛思信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310168444.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top