[发明专利]基于GlusterFS分布式文件系统的离线去重方法有效
申请号: | 201711317259.9 | 申请日: | 2017-12-12 |
公开(公告)号: | CN108563649B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 庄鹏盛;李丹;王凯;张冠枭 | 申请(专利权)人: | 南京富士通南大软件技术有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/182 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于GlusterFS分布式文件系统的离线去重方法,包括:计算所有文件的哈希值;将文件的大小和该文件的哈希值作为Key值,建立哈希树;择一组大小相同且哈希值相同的多个文件并标记为相同文件;根据分布式文件系统中每个存储设备的剩余容量大小和每个存储设备中存储的相同文件的个数从分布式文件系统中选择一个存储设备并将该存储设备标记为指定移动存储设备;将分布式文件系统中的存储设备中存储的相同文件均移动到指定移动存储设备中;采用文件去重方法从指定移动存储设备中删除相同文件,保证相同文件只有一份;本发明有效地解决了分布式存储中可能存在的大量重复数据的问题,大大提升了分布式存储系统的存储能力。 | ||
搜索关键词: | 基于 glusterfs 分布式 文件系统 离线 方法 | ||
【主权项】:
1.一种基于GlusterFS分布式文件系统的离线去重方法,其特征在于:包括以下步骤:步骤1::遍历分布式文件系统中的所有的文件,采用哈希算法计算出所有文件的哈希值;步骤2:将文件的大小和哈希值作为Key值,建立哈希树;步骤3:判断分布式文件系统中是否存在大小相同且哈希值相同的多个文件,如果存在,选择一组大小相同且哈希值相同的多个文件并将该多个文件均标记为相同文件,将所述相同文件添加到相同文件所对应的节点指向的链表中;步骤4:根据分布式文件系统中每个存储设备的剩余容量大小和每个存储设备中存储的所述相同文件的个数从分布式文件系统中选择一个存储设备并将该存储设备标记为指定移动存储设备;步骤5:将分布式文件系统中的存储设备中存储的所述相同文件均移动到指定移动存储设备中;步骤6:采用文件去重方法从指定移动存储设备中删除所述相同文件,保证所述相同文件只有一份,返回执行步骤3,直到将分布式文件系统包含的所有组合的相同文件均进行去重操作,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京富士通南大软件技术有限公司,未经南京富士通南大软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711317259.9/,转载请声明来源钻瓜专利网。