[发明专利]一种实现重复数据删除的方法及装置有效
申请号: | 201410623909.2 | 申请日: | 2014-11-07 |
公开(公告)号: | CN105630834B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 鲁飞;刘煌 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 重复 数据 删除 方法 装置 | ||
本申请公开了一种实现重复数据删除的方法及装置,包括:在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘,并根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。本发明通过在完成内存中数据重删表的重删查找后,或预设时长内未完成完整的数据重删表的查找时、建立临时数据重删表,进行后处理重删,避免了数据重删表的全盘查找,减少了实时I/O时延,提高了数据重删的工作效率。
技术领域
本申请涉及数据存储技术,尤指一种实现数据删除的方法及装置。
背景技术
随着计算机信息化程度的提高,人类已经进入了信息时代。计算机以及互联网已经深入各行各业,这也使得信息数据量呈几个级数增长。而在这海量的数据中,存在大量的冗余数据。为了保证数据的安全,需要不断对数据进行备份,而在备份过程中,大量的冗余数据会随之产生。
针对冗余数据进行处理的方法被称为重复数据删除。根据对数据的处理时机不同,重复数据删除分为带内和带外两种;其中,带内是一种嵌入在整个输入/输出(I/O)流程中的处理方式,也称为实时重复数据删除。实时重复数据删除是数据在写入存储介质时分析是否有重复,并对重复的数据直接进行删除处理,以实现在第一时间减少空间占用,不过其更耗资源,但这有可能会影响写入的性能。带外是先正常写入数据,之后再在某个时刻对磁盘上的数据进行重删,也称为后处理重复数据删除。后处理重复数据删除是在数据写入磁盘后再进行重复数据删除操作,其技术优势在于其不会影响写入性能,但要求有足够的磁盘空间来存储所有数据,直到业务非高峰时刻时进行的重复数据删除操作。
无论是带内方式还是带外方式的重复数据删除,首先都要找到重复数据,由于需要处理的数据量可能是非常大的,从大量的数据中找到相同内容的数据块是非常费时的。尽管现有技术中通过对数据块内容的数据指纹(哈希值),在被称为数据重删表的重删信息索引表中实现重复数据查找,但是,记录重复数据信息数据重删表的数据量也非常的大,基于数据重删表的数据量大,因此其信息不能被全部放入内存,内存只能作为磁盘上数据重删表的缓冲(cache),所以在通过数据指纹进行查找时,需要在内存和磁盘中混合查找,因此,对数据重删表的检索成为重复数据重删系统的主要性能瓶颈。目前,对数据重删表的检索也提出了许多优化方法,例如散列表、分级索引和机制等,但通常对于一个数据存储节点,数据重删表仍然同时保存在内存和磁盘中,实时重删系统在检索到磁盘部分的数据重删表时,需要完整的数据重删表的查找,比较费时,对I/O性能造成影响。
发明内容
为了解决上述问题,本发明提供一种实现重复数据删除的方法及装置,无需进行完整数据重删表的查找,减少进行数据重删的时间消耗,降低对I/O性能的影响。
为了达到本发明的目的,本申请提供一种实现数据重删的方法;包括:
在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
进一步地,在执行实时数据重删之前,该方法还包括:
获取所述存储数据块的哈希值指纹,作为删除重复数据的关键字KEY;
通过布鲁姆过滤器判断KEY是否记录在所述数据重删表中,当未记录在所述数据重删表中时,进行所述存储数据块的存储并将KEY和存储地址更新到所述数据重删表中;否则,执行实时数据重删。
进一步地,通过预设的策略对所述临时数据重删表中记录的存储数据块进行后处理重删具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410623909.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置