[发明专利]一种去除重复数据的方法、装置及系统有效
申请号: | 201210464977.X | 申请日: | 2012-11-16 |
公开(公告)号: | CN103823807B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 娄继冰;李博;黄伟 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/14 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种去除重复数据的方法及设备,属于通信领域。所述方法包括:根据待存储的文件分片的索引值获取用于存储所述待存储的文件分片的索引值的索引服务器;如果所述索引服务器包括所述待存储的文件分片的索引值,则在所述索引服务器中增加所述待存储的文件分片的引用次数;如果所述索引服务器不包括所述待存储的文件分片的索引值,则将所述待存储的文件分片存储在存储服务器中,获取所述待存储的文件分片的引用次数和存储路径,将所述待存储的文件分片的索引值、存储路径和引用次数存储在所述索引服务器中。所述设备包括:第一获取模块、第一增加模块和第一存储模块。本发明能够提高备份数据的性能。 1 | ||
搜索关键词: | 存储 文件分片 索引服务器 索引 存储路径 重复数据 引用 去除 存储服务器 装置及系统 备份数据 存储模块 获取模块 通信领域 | ||
将需要存储的文件的文件标识与待存储的文件分片的索引值对应存储,并根据所述待存储的文件分片的索引值获取用于存储所述待存储的文件分片的索引值的索引服务器,所述待存储的文件分片是对所述需要存储的文件进行分片得到;
如果所述索引服务器包括所述待存储的文件分片的索引值,则在所述索引服务器中增加所述待存储的文件分片的引用次数;
如果所述索引服务器不包括所述待存储的文件分片的索引值,则将所述待存储的文件分片存储在存储服务器中,获取所述待存储的文件分片的引用次数和存储路径,将所述待存储的文件分片的索引值、存储路径和引用次数存储在所述索引服务器中;
当接收到需要删除的文件的文件标识时,根据所述需要删除的文件的文件标识,从已存储的文件标识和索引值的对应关系中获取所述需要删除的文件包括的待删除的文件分片的索引值;
根据所述待删除的文件分片的索引值获取用于存储所述待删除的文件分片的索引的索引服务器,在所述索引服务器包括的索引表中减少所述待删除的文件分片的引用次数,所述索引表用于存储文件分片的索引值、存储路径与引用次数的对应关系;
如果所述待删除的文件分片的引用次数为零,则根据所述待删除的文件分片的索引值,从所述索引服务器包括的索引表中获取所述待删除的文件的存储路径,根据所述待删除的文件分片的存储路径删除所述待删除的文件分片。
2.如权利要求1所述的方法,其特征在于,所述根据所述待存储的文件分片的索引值获取用于存储所述待存储的文件分片的索引值的索引服务器,包括:根据索引服务器的个数对所述待存储的文件分片的索引值进行取模运算得到索引服务器的标识;
确定所述索引服务器的标识对应的索引服务器为用于存储所述待存储的文件分片的索引值的索引服务器。
3.如权利要求1所述的方法,其特征在于,所述将所述待存储的文件分片存储在存储服务器中,获取所述待存储的文件分片的引用次数和存储路径,将所述待存储的文件分片的索引值、存储路径和引用次数存储在所述索引服务器中,包括:将所述待存储的文件分片存储在存储服务器中;
获取所述待存储的文件分片的存储路径;
设置所述待存储的文件分片的引用次数的初值;
将所述待存储的文件分片的索引值、存储路径和引用次数的对应关系存储在所述索引服务器包括的索引表中。
4.如权利要求1所述的方法,其特征在于,所述在所述索引服务器中增加所述待存储的文件分片的引用次数之前,还包括:判断所述索引服务器是否包括所述待存储的文件分片的索引值。
5.如权利要求4所述的方法,其特征在于,所述根据所述待存储的文件分片的索引值判断所述索引服务器是否包括所述待存储的文件分片的索引值,包括:根据所述待存储的文件分片的索引值,查找所述索引服务器中包括的索引表,所述索引表用于存储文件分片的索引值、存储路径与引用次数的对应关系;
如果查找出对应的存储路径和引用次数,则判断出所述索引服务器包括所述待存储的文件分片的索引值;
如果没有查找出对应的存储路径和引用次数,则判断出所述索引服务器不包括所述待存储的文件分片的索引值。
6.如权利要求1所述的方法,其特征在于,所述根据待存储的文件分片的索引值获取用于存储所述待存储的文件分片的索引值的索引服务器之前,还包括:对需要存储的文件进行分片得到待存储的文件分片;
根据所述待存储的文件分片的内容获取所述待存储的文件分片的索引值。
7.一种去除重复数据的装置,其特征在于,所述装置包括:第一获取模块,用于将需要存储的文件的文件标识与待存储的文件分片的索引值对应存储,并根据所述待存储的文件分片的索引值获取用于存储所述待存储的文件分片的索引值的索引服务器,所述待存储的文件分片是对所述需要存储的文件进行分片得到;
第一增加模块,用于如果所述索引服务器包括所述待存储的文件分片的索引值,则在所述索引服务器中增加所述待存储的文件分片的引用次数;
第一存储模块,用于如果所述索引服务器不包括所述待存储的文件分片的索引值,则将所述待存储的文件分片存储在存储服务器中,获取所述待存储的文件分片的引用次数和存储路径,将所述待存储的文件分片的索引值、存储路径和引用次数存储在所述索引服务器中;
所述装置还用于当接收到需要删除的文件的文件标识时,根据所述需要删除的文件的文件标识,从已存储的文件标识和索引值的对应关系中所述获取需要删除的文件包括的待删除的文件分片的索引值;
所述装置还包括减少模块,用于根据所述待删除的文件分片的索引值获取用于存储所述待删除的文件分片的索引的索引服务器,在所述索引服务器包括的索引表中减少所述待删除的文件分片的引用次数,所述索引表用于存储文件分片的索引值、存储路径与引用次数的对应关系;
所述装置还包括删除模块,用于如果所述待删除的文件分片的引用次数为零,则根据所述待删除的文件分片的索引值,从所述索引服务器包括的索引表中获取所述待删除的文件的存储路径,根据所述待删除的文件分片的存储路径删除所述待删除的文件分片。
8.如权利要求7所述的装置,其特征在于,所述第一获取模块包括:运算单元,用于根据索引服务器的个数对所述待存储的文件分片的索引值进行取模运算得到索引服务器的标识;
确定单元,用于确定所述索引服务器的标识对应的索引服务器为用于存储所述待存储的文件分片的索引值的索引服务器。
9.如权利要求7所述的装置,其特征在于,所述第一存储模块包括:第一存储单元,用于将所述待存储的文件分片存储在存储服务器中;
获取单元,用于获取所述待存储的文件分片的存储路径;
设置单元,用于设置所述待存储的文件分片的引用次数的初值;
第二存储单元,用于将所述待存储的文件分片的索引值、存储路径和引用次数的对应关系存储在所述索引服务器包括的索引表中。
10.如权利要求7所述的装置,其特征在于,所述装置还包括:判断模块,用于判断所述索引服务器是否包括所述待存储的文件分片的索引值。
11.如权利要求10所述的装置,其特征在于,所述判断模块包括:查找单元,用于根据所述待存储的文件分片的索引值,查找所述索引服务器中包括的索引表,所述索引表用于存储文件分片的索引值、存储路径与引用次数的对应关系;
第一判断单元,用于如果查找出对应的存储路径和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210464977.X/,转载请声明来源钻瓜专利网。