[发明专利]一种文件去重处理的方法和系统有效
申请号: | 201910478173.7 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110175155B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 史爱武;李险贵;张煜;黄奇凡;尹杰;罗良杰 | 申请(专利权)人: | 武汉纺织大学 |
主分类号: | G06F16/174 | 分类号: | G06F16/174 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 430200 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 处理 方法 系统 | ||
本发明属于云储存技术领域,提供一种文件去重处理的方法和系统,包括:读取需要上传的用户文件,将所述用户文件进行分块处理,获取用户文件分块;从服务器中获取与所述用户文件相似的目标文件以及目标文件分块的信息摘要值;计算所述用户文件分块的信息摘要值,并基于所述用户文件分块与所述目标文件分块的信息摘要值的比对结果,判断所述用户文件与所述目标文件是否为重复文件。将文件的去重判断和存储过程分开,减少服务器的计算量,同时使客户端在较少计算量的前提下判断出需要上传存储的非重复文件。
技术领域
本发明属于云储存技术领域,尤指一种文件去重处理的方法和系统。
背景技术
在如今的海量数据时代,世界上的数据信息总量每年都以指数级的速度在增长,如何存储以及管理这些数据对于个人和企业来说都是重大挑战。重复数据删除技术亦称为“去重技术”,在一个云存储系统中必然存在冗余的信息,可能是文件相同或者是块落相同,这些相同的部分对存储空间产生极大的浪费。解决这类问题的一个比较容易想到的思路就是重复的文件部分只保存一份作为元数据,将元数据地址保存在原文件的对应地址中。这样就解决了重复问题,是去重基础的基本原理。
文件级去重技术中对文件进行摘要计算目前是整体文件参与计算。现有技术CN106487937A提供了一种云存储系统文件去重方法及系统,该技术方法通过读取所要上传的文件,计算文件的信息摘要值;将文件的信息摘要值与云存储系统中已存在文件的信息摘要值比较,若云存储系统中存在信息摘要值与文件的信息摘要值相同的文件,则停止对文件的上传。该发明云存储系统文件去重方法及系统,利用文件的信息摘要值,文件的信息摘要值具有唯一性,若云存储系统中存在与所要上传文件的信息摘要值相同的文件,表明云存储系统中已存在该文件数据,则不再上传该文件,从而避免云存储系统中存在重复文件,实现了对云存储系统文件的去重。
在现有技术中,完成对上传文件是否为重复文件的判断总是需要完成对上传文件的所有数据的计算,但实际情况中,往往只需要判断两个文件的部分数据是否相同即可,有时甚至只需要判断两个文件的开头是否相同即可得出结论,这就导致传统的计算方法实际上完成了很多无用的计算。例如,上传文件大小为20G,但从文件前面1K的数据即可判断出两个文件根本不相同,这时传统的文件去重办法会完成20G全文件的摘要值计算,然后再进行比对,这个过程中,完成文件的去重判断实际只需要计算前面1K数据的摘要值已经足够,但是系统却必须等待20G全文件的摘要值计算,然后再进行去重对比。这种计算方式在客户端进行文件比对时,会占用客户端大量资源,造成大量的计算资源浪费,如果全部在服务器端进行文件的对比,同样又会占用服务器的大量计算资源。如何在去重判断时合理分配客户端和服务器端的计算资源,提高去重判断的效率成为问题。
发明内容
本发明提出一种文件去重处理的方法和系统,在用户上传文件时,将上传的文件进行分块,通过预筛选发现可能重复的目标文件,通过在客户端对分块的信息摘要值比对判断上传文件是否为重复文件,一旦判断上传文件不是重复文件,就将文件上传至服务器中,由服务器完成该文件的剩余分块的摘要值计算以及存储,以此来解决对上传文件去重存储时难以合理分配计算资源的问题,影响上传效率的问题。本发明技术方案如下:
本发明提供一种文件去重处理的方法,包括:
读取需要上传的用户文件,将所述用户文件进行分块处理,获取用户文件分块;
从服务器中获取与所述用户文件相似的目标文件以及目标文件分块的信息摘要值;
计算所述用户文件分块的信息摘要值,并基于所述用户文件分块与所述目标文件分块的信息摘要值的比对结果,判断所述用户文件与所述目标文件是否为重复文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910478173.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志记录的处理方法、服务器及存储介质
- 下一篇:报表的生成方法及装置