[发明专利]基于插入位置选择的数据近似集合表示方法及系统有效

专利信息
申请号: 201910419541.0 申请日: 2019-05-20
公开(公告)号: CN110222088B 公开(公告)日: 2021-08-31
发明(设计)人: 陈汉华;金海;王飞越;张凡 申请(专利权)人: 华中科技大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06N3/00
代理公司: 华中科技大学专利中心 42201 代理人: 曹葆青;李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 插入 位置 选择 数据 近似 集合 表示 方法 系统
【说明书】:

发明公开了一种基于插入位置选择的数据近似集合表示方法及系统,属于计算机信息表示领域,包括:为布谷鸟过滤器中每一个哈希桶维护一个重定位计数;对于待插入的成员x,执行如下步骤:分别获得其指纹信息ξx和两个候选哈希桶;若两个候选哈希桶中均未存储指纹信息ξx,则判断其中是否存在空槽;否则,插入操作结束;若只有一个存在空槽,将指纹信息ξx插入到存在空槽的候选哈希桶中;若两个均不存在空槽,则通过重定位操作将指纹信息ξx插入到重定位计数较小的候选哈希桶中,并相应更新哈希桶的重定位次数;若两个均存在空槽,则将指纹信息ξx插入到全局插入数目较小的候选哈希桶中。本发明能够同时支持集合成员删除操作和高效的插入操作。

技术领域

本发明属于计算机信息表示领域,更具体地,涉及一种基于插入位置选择的数据近似集合表示方法及系统。

背景技术

随着大数据应用的蓬勃发展,高效的数据集合表示(Set Representation)成为一个重要的问题。数据集合表示,具体是指通过某种数据结构将集合中的元素高效的组织和存储起来;成员判定,即判断特定成员是否已经存在集合中,是数据集合表示中的一个重要操作。存储空间高效的集合表示及快速成员判定对云存储、移动缓存等大数据应用至关重要。例如,云存储系统中,通常需要重复文件仅存储一份来实现高效的空间利用,因此需要快速的检测出需要存储的文件是否已经存在于云存储系统中。

哈希编码(hash coding)是一种经典的数据集合表示方法,哈希编码通过保存集合中成员的完整信息来实现集合成员精确判定,然而这样的数据集合表示方法在空间效率不高,而且由于该方法采用链式法来应对哈希冲突,所以其成员判定效率不高。对于可以接受近似成员判定结果的应用,可采用数据近似集合表示方法,仅保存布尔值或者对应成员的指纹信息,而不是完整的数据成员信息,因此能够降低空间和时间开销。目前,从所采用的数据结构来看,数据近似集合表示方主要包括以下两种:(1)基于布隆过滤器(BloomFilter,BF)的数据近似集合表示方法,该方法使用布尔值来标志集合成员的存在,具有较高的空间效率和时间效率,但不支持集合成员的删除操作,因此无法应用于数据集合动态变化的应用;(2)基于布谷鸟过滤器(Cuckoo Filter,CF)的数据近似集合表示方法,该方法保存对应集合成员的指纹信息来标志集合成员,并通过匹配指纹信息进行集合成员判定;基于布谷鸟过滤器的数据近似集合表示方法支持集合成员的删除操作,但是所使用的布谷鸟过滤器在集合成员插入过程中可能发生重定位操作,随着布谷鸟过滤器存储空间变得越来越满,重定位的次数会快速增加,因此,该方法存在集合成员插入效率低下的问题。

总的来说,现有的数据近似集合表示方法,无法同时支持集合成员删除操作和高效的集合成员插入操作。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种基于插入位置选择的数据近似集合表示方法及系统,其目的在于,同时支持集合成员删除操作和高效的集合成员插入操作。

为实现上述目的,按照本发明的一个方面,提供了一种基于插入位置选择的数据近似集合表示方法,包括:

预先建立用于存储集合成员指纹信息的布谷鸟过滤器,并分别为其中的每一个哈希桶维护一个重定位计数;重定位计数用于记录成员插入对应的哈希桶中所需要的最大重定位次数;

对于每一个待插入的成员x,执行如下步骤:

(1)分别获得成员x的指纹信息ξx和对应的两个候选哈希桶;

(2)若两个候选哈希桶中均未存储指纹信息ξx,则转入步骤(3);否则,插入操作结束;

(3)若只有一个候选哈希桶中存在空槽,则转入步骤(4);若两个候选哈希桶中均不存在空槽,则转入步骤(5);若两个候选哈希桶中均存在空槽,则转入步骤(6);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910419541.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top