[发明专利]SFAD布谷鸟过滤器及基于SFAD布谷鸟过滤器重复数据删除方法在审

专利信息
申请号: 202110885076.7 申请日: 2021-08-03
公开(公告)号: CN113535705A 公开(公告)日: 2021-10-22
发明(设计)人: 王博辉;李挥;杨昕;蒋傅礼;侯韩旭;张华宇 申请(专利权)人: 佛山赛思禅科技有限公司;重庆赛渝深科技有限公司;深圳赛思鹏科技发展有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/22;G06F16/245
代理公司: 深圳市锟剑恒富知识产权代理有限公司 44769 代理人: 温玉珍
地址: 528200 广东省佛山市南海区桂城街道*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: sfad 布谷鸟 过滤器 基于 重复 数据 删除 方法
【说明书】:

发明适用于数据处理技术改进领域,提供了一种SFAD布谷鸟过滤器,所述SFAD布谷鸟过滤器将SFA布谷鸟过滤器通过双向链表连接起来形成,所述SFAD布谷鸟过滤器包括多个单元SFACF,所述单元SFACF包括平行设置的第一个单元CF指针及第二个单元CF指针。SFAD布谷鸟过滤器是一种高效的概要数据结构,有效地降低了布谷鸟过滤器的假阳性率,从而增加了重复数据删除系统的效率和吞吐量。

技术领域

本发明属于数据处理技术改进领域,尤其涉及一种SFAD布谷鸟过滤器及基于SFAD布谷鸟过滤器重复数据删除方法。

背景技术

随着互联网的快速发展以及各种物联网以及移动终端设备的流行,现在的人们正在经历一个信息和数据大爆炸的时代。各类各样的摄像头、传感器等物联网设备以及智能手机、智能手表、智能手环等移动终端设备无时无刻不在产生和接受着海量的数据,各行各业对于数据的利用率也远超历史上的所有时期,人类正在进入大数据时代。随之而来的就是数据规模的快速增长,现有数据中心的存储规模已经普遍到达PB级规模并朝着EB级别快速迈进。管理和维护海量数据的存储对于各类数据中心和存储服务提供商来说是一笔巨大的开销。

然而根据调研,数据显示在各类大大小小的数据中心和存储系统中,重复数据大量的存在,消耗了宝贵的资源。根据IDC的一份研究显示,现有数据约75%的比例都为冗余重复数据,只有25%的数据是唯一非重复数据。为了解决重复冗余数据所带来的资源浪费问题,重复数据删除技术应运而生,其能够提高存储空间所能容纳的数据量,提高存储效率。其次能够减少网络中冗余数据的传输,降低网络负载,提高网络的利用率。最后能够降低数据的维护和管理成本以及能源开销。

重复数据删除技术是二十一世纪出现的数据冗余消除技术,其相较于传统的字节级编码技术,其可以在更为粗糙的粒度上进行重复数据删除,例如文件级和数据块级。此外其重复数据删除的范围更大,工作效率也更高。其技术思想是通过计算文件或者数据块的哈希指纹和比对来在存储系统中保留唯一的副本。同时,块级重复数据删除克服了文件级重复数据删除的对文件内容增删敏感的缺点,达到了重删率和重复数据删除效率的有效平衡,成为了目前业界重复数据删除技术的主流选择。

块级重复数据删除技术由四个功能模块组成,分别为:文件分块、指纹计算、重复指纹检测和存储管理。其中文件分块通过定长分块算法或者不定长分块算法将文件切割成粒度更细的数据块。指纹计算则是通过SHA1或者SHA256等哈希算法对数据块进行哈希计算,获取其的指纹。重复指纹检测模块负责指纹的索引、存储以及指纹的比对。存储管理模块用于存储数据块本身,以及数据块的指纹和对应的数据块的地址信息。

然而随着数据规模的快速扩张,重复数据删除技术也遭遇了性能瓶颈,在重复数据删除的流程中,重复数据的指纹由于需要的存储空间太大,无法存放于重复数据删除系统的主存中,只能存放于磁盘数据库中,而这就带来了严重的性能下降问题。为了解决这个问题,学界和业界涌现了各类各样的解决方案。

概要数据结构只保存数据的概要信息,放弃保存数据的原始信息,从而能够有效降低存储空间的消耗,同时其能够在线性时间内完成集合判定。得益于此,概要数据结构可以常驻内存,从而大幅提升了重复数据删除技术的速度,有效的缓解了性能下降的问题。

Yoshihiro等学者提出了DBLK系统,一种针对数据块的重复数据删除系统。为了缓解磁盘瓶颈问题,DBLK使用布隆过滤器来完成部分数据块是否存在的判定,从而节省了磁盘开销。DBLK没有使用原始的布隆过滤器,而是将多个布隆过滤器组合起来形成多层布隆过滤器,以此来提升整个过滤器的性能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山赛思禅科技有限公司;重庆赛渝深科技有限公司;深圳赛思鹏科技发展有限公司,未经佛山赛思禅科技有限公司;重庆赛渝深科技有限公司;深圳赛思鹏科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110885076.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top