[发明专利]一种重复数据删除方法和设备有效
申请号: | 201310230732.5 | 申请日: | 2013-06-09 |
公开(公告)号: | CN103309975B | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 周景才 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 重复 数据 删除 方法 设备 | ||
技术领域
本发明涉及数据存储领域,尤其涉及一种基于文件分类进行重复数据删除方法和设备。
背景技术
随着云计算技术的普及,基于云计算的虚拟桌面架构(virtual desktop infrastructure,简称VDI)应用得到快速发展。当前无论是国内还是国外,众多大型企业和政府纷纷将自己的传统个人电脑(Personal Computer,简称PC)机切换成VDI桌面云,这样将原来各个相互隔离的类似信息孤岛的PC机有机地联系了起来。
根据研究的数据表明,不同用户之间存储的数据有60%是重复存储的数据,特别是同一工作部门中的不同用户之间存储的重复数据高达80%,因此,在数据存储领域,如何有效地删除用户之间的重复数据成为人们关心的问题。
目前重复数据删除技术的关键点在于,利用SHA-1摘要算法计算用于标识文件不同内容的指纹信息,其中,计算文件不同内容的指纹信息的方式包括:粗粒度地计算每个文件的指纹信息,例如:利用每一个文件的摘要信息计算文件的指纹信息;去重技术在采用上述方式计算得到的指纹信息后,将计算得到的指纹信息与指纹数据库中存储的指纹信息进行比较,当计算得到的指纹信息与指纹数据库中存储的指纹信息相同时,说明用于计算指纹信息的文件或者数据块属于重复数据,需要进行重复数据删除;否则,用于计算指纹信息的文件或者数据块属于非重复数据,不需要进行重复数据删除。
但是,在实际应用中存在以下问题:
假设指纹数据库中存储的文件A,利用文件A的摘要信息计算得到文件A的指纹信息1,和待存储的文件B,利用文件B的摘要信息计算得到文件B的指纹信息2,其中,文件A和文件B属于同一文件类型。
文件B与文件A相比较,文件B的摘要信息与文件A的摘要信息不同,文件B除摘要之外的其他部分与文件A除摘要之外的其他部分相同。此时,计算得到的指纹信息1与计算得到的指纹信息2不同,文件B相对于文件A属于非重复数据,因此,文件B将被存储,但是文件B中存在大量与文件A相同的数据,导致文件的重复数据删除率(原始文件总量与去重处理后输出的文件总量之比)比较低。
也就是说,针对同一文件类型的文件,当文件中用于计算指纹信息的数据发生变化时,将出现文件的重复数据删除率较低的问题。
发明内容
本发明实施例提供了一种重复数据删除方法和设备。
根据本发明的第一方面,提供了一种对文件进行去重处理的方法,包括:
识别待存储文件的分类;
根据文件的分类确定所述待存储文件使用的重复数据删除规则;
根据确定的重复数据删除规则,对所述待存储文件进行重复数据删除。
在第一方面的实现方式中,第一种可能的实现方式中,所述文件的分类包括常用文件和非常用文件;
所述识别待存储文件的分类,具体包括:
获取所述待存储文件的文件类型的出现次数,并判断所述文件类型的出现次数是否大于阈值,当所述文件类型的出现次数大于所述阈值时,将所述待存储文件确定为常用文件,当获取的所述待存储文件的文件类型的出现次数不大于所述阈值时,将所述待存储文件确定为非常用文件;
或者,在查找常用文件数据库中查找所述待存储文件的文件类型,当在常用文件数据库中查找到所述待存储文件的文件类型时,将所述待存储文件确定为常用文件,当在常用文件数据库中没有查找到所述待存储文件的文件类型时,确定待存储文件为非常用文件。
在第一方面的第一种可能的实现方式中,第二种可能的实现方式中,所述根据文件的分类确定所述待存储文件使用的重复数据删除规则,具体包括:
当所述待存储文件为常用文件时,所述待存储文件使用的重复数据删除规则为数据块级重复数据删除;
所述根据确定的重复数据删除规则,对所述待存储文件进行重复数据删除,具体包括:
根据所述数据块级重复数据删除规则,将所述待存储文件划分成多个数据块,计算每一个数据块的指纹信息;
将所述每一个数据块的指纹信息与存储的指纹信息进行比较;
当一个数据块的指纹信息与已存储的指纹信息相同时,存储所述数据块与已存储的与所述数据块的指纹信息相同的指纹信息之间的引用信息,并丢弃所述数据块;当一个数据块的指纹信息与存储的指纹信息不相同时,存储所述数据块和计算得到的所述数据块的指纹信息。
在第一方面的第一种可能的实现方式中,第三种可能的实现方式中,所述根据文件的分类确定所述待存储文件使用的重复数据删除规则,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310230732.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:演出数据处理方法、装置及系统
- 下一篇:基于相似性传递的协同过滤方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置