[发明专利]一种重复数据删除方法和装置在审
申请号: | 201810765218.4 | 申请日: | 2018-07-12 |
公开(公告)号: | CN108984123A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 何孝金 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待处理数据 重复数据删除 数据指纹 高速缓冲存储器 读取目标 目标数据 缓存块 方法和装置 存储数据 第一数据 指纹 处理数据 数据读取 指纹匹配 磁盘 读盘 删除 存储 申请 | ||
本申请实施例公开了一种重复数据删除方法和装置,在确定是否需要对待处理数据进行重复数据删除时,高速缓冲存储器中存储数据指纹与存储数据的缓存块的对应关系,若获取到待处理数据,计算待处理数据的第一数据指纹;若已存储的数据指纹中存在与第一数据指纹匹配的第二数据指纹,优先判断高速缓冲存储器中第二数据指纹对应的缓存块中是否存在目标数据;若存在,从第二数据指纹对应的缓存块中读取目标数据,无需从磁盘中读取目标数据,并将待处理数据与目标数据逐字节比较,以便在确定待处理数据与目标数据字节完全相同时删除待处理数据。该方法优先从高速缓冲存储器中读取目标数据,减少了读盘次数,提高数据读取速度,提升重复数据删除的效率。
技术领域
本申请涉及数据处理领域,特别是涉及一种重复数据删除方法和装置。
背景技术
在当今的大数据时代,海量的数据存储占用大量的存储空间,其中,可能包括大量的冗余数据,例如重复数据。在这种情况下,重复数据删除(Data Deduplication,简称DDP)是一种可减少数据占用存储空间的核心技术。
目前使用的DDP算法可以包括强哈希(HASH)算法,以及弱HASH算法结合数据逐字节比较的方式。其中,弱HASH算法结合数据逐字节比较的方式是常用的DDP算法,其主要是将新写入的数据计算一个数据指纹,然后将该数据指纹与已存储的数据指纹对比,如果二者匹配成功,再读取已存储的数据指纹对应的数据,将其与新写入的数据逐字节比较来确定数据是否完全相同,如果相同,则新写入的数据不写入磁盘。
由于在采用弱HASH算法结合数据逐字节比较的方式进行重复数据删除时,需要从磁盘中读取已存储的数据指纹对应的数据,而从磁盘读取数据具有读取速度慢、读取时延较长的特点,因此,传统的重复数据删除方法效率低。
发明内容
为了解决上述技术问题,本申请提供了一种重复数据删除方法和装置,该方法可以优先从高速缓冲存储器中读取目标数据,从而减少从磁盘中读取目标数据的次数,提高数据读取速度,提升重复数据删除的效率。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种重复数据删除方法,高速缓冲存储器中存储有数据指纹与存储数据的缓存块的对应关系,所述方法包括:
计算待处理数据对应的第一数据指纹;
若已存储的数据指纹中存在与所述第一数据指纹匹配的第二数据指纹,判断所述高速缓冲存储器中所述第二数据指纹对应的缓存块中是否存在目标数据;
若存在,从所述第二数据指纹对应的缓存块中读取所述目标数据并将所述待处理数据与所述目标数据逐字节比较,以便在确定所述待处理数据与所述目标数据字节完全相同时删除所述待处理数据。
可选的,若判断所述高速缓冲存储器中所述第二数据指纹对应的缓存区域中不存在目标数据,所述方法还包括:
从磁盘中读取所述目标数据并将所述待处理数据与所述目标数据逐字节比较,以便在确定所述待处理数据与所述目标数据字节完全相同时删除所述待处理数据。
可选的,所述高速缓冲存储器包括第一缓存区域和第二缓存区域,所述第一缓存区域中的缓冲块所缓存的数据是根据高速缓冲存储器确定的,所述第二缓存区域中的缓冲块所缓存的数据是由重复数据删除模块确定的。
可选的,所述第二缓存区域中的缓冲块所缓存的数据是重复数据删除率满足预设条件的数据。
可选的,所述高速缓冲存储器数据指纹与存储数据的缓存块的对应关系是由所述重复数据删除模块建立的。
第二方面,本申请实施例提供了一种重复数据删除装置,其特征在于,高速缓冲存储器中存储有数据指纹与存储数据的缓存块的对应关系,所述装置包括计算单元、判断单元和第一比较单元:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810765218.4/2.html,转载请声明来源钻瓜专利网。