[发明专利]一种实现重复数据删除的方法及装置有效

专利信息
申请号: 201410623909.2 申请日: 2014-11-07
公开(公告)号: CN105630834B 公开(公告)日: 2021-07-20
发明(设计)人: 鲁飞;刘煌 申请(专利权)人: 中兴通讯股份有限公司
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 深圳市力道知识产权代理事务所(普通合伙) 44507 代理人: 张传义
地址: 518057 广东省深圳市南山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实现 重复 数据 删除 方法 装置
【说明书】:

本申请公开了一种实现重复数据删除的方法及装置,包括:在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘,并根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。本发明通过在完成内存中数据重删表的重删查找后,或预设时长内未完成完整的数据重删表的查找时、建立临时数据重删表,进行后处理重删,避免了数据重删表的全盘查找,减少了实时I/O时延,提高了数据重删的工作效率。

技术领域

本申请涉及数据存储技术,尤指一种实现数据删除的方法及装置。

背景技术

随着计算机信息化程度的提高,人类已经进入了信息时代。计算机以及互联网已经深入各行各业,这也使得信息数据量呈几个级数增长。而在这海量的数据中,存在大量的冗余数据。为了保证数据的安全,需要不断对数据进行备份,而在备份过程中,大量的冗余数据会随之产生。

针对冗余数据进行处理的方法被称为重复数据删除。根据对数据的处理时机不同,重复数据删除分为带内和带外两种;其中,带内是一种嵌入在整个输入/输出(I/O)流程中的处理方式,也称为实时重复数据删除。实时重复数据删除是数据在写入存储介质时分析是否有重复,并对重复的数据直接进行删除处理,以实现在第一时间减少空间占用,不过其更耗资源,但这有可能会影响写入的性能。带外是先正常写入数据,之后再在某个时刻对磁盘上的数据进行重删,也称为后处理重复数据删除。后处理重复数据删除是在数据写入磁盘后再进行重复数据删除操作,其技术优势在于其不会影响写入性能,但要求有足够的磁盘空间来存储所有数据,直到业务非高峰时刻时进行的重复数据删除操作。

无论是带内方式还是带外方式的重复数据删除,首先都要找到重复数据,由于需要处理的数据量可能是非常大的,从大量的数据中找到相同内容的数据块是非常费时的。尽管现有技术中通过对数据块内容的数据指纹(哈希值),在被称为数据重删表的重删信息索引表中实现重复数据查找,但是,记录重复数据信息数据重删表的数据量也非常的大,基于数据重删表的数据量大,因此其信息不能被全部放入内存,内存只能作为磁盘上数据重删表的缓冲(cache),所以在通过数据指纹进行查找时,需要在内存和磁盘中混合查找,因此,对数据重删表的检索成为重复数据重删系统的主要性能瓶颈。目前,对数据重删表的检索也提出了许多优化方法,例如散列表、分级索引和机制等,但通常对于一个数据存储节点,数据重删表仍然同时保存在内存和磁盘中,实时重删系统在检索到磁盘部分的数据重删表时,需要完整的数据重删表的查找,比较费时,对I/O性能造成影响。

发明内容

为了解决上述问题,本发明提供一种实现重复数据删除的方法及装置,无需进行完整数据重删表的查找,减少进行数据重删的时间消耗,降低对I/O性能的影响。

为了达到本发明的目的,本申请提供一种实现数据重删的方法;包括:

在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;

根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。

进一步地,在执行实时数据重删之前,该方法还包括:

获取所述存储数据块的哈希值指纹,作为删除重复数据的关键字KEY;

通过布鲁姆过滤器判断KEY是否记录在所述数据重删表中,当未记录在所述数据重删表中时,进行所述存储数据块的存储并将KEY和存储地址更新到所述数据重删表中;否则,执行实时数据重删。

进一步地,通过预设的策略对所述临时数据重删表中记录的存储数据块进行后处理重删具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410623909.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top