[发明专利]一种基于位图的MBF数据索引结构对数据快速检索的方法有效

专利信息
申请号: 201710956392.2 申请日: 2017-10-13
公开(公告)号: CN107832343B 公开(公告)日: 2020-02-21
发明(设计)人: 刘开华;许亚平;李卓 申请(专利权)人: 天津大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/24
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李丽萍
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 位图 mbf 数据 索引 结构 快速 检索 方法
【权利要求书】:

1.一种基于位图的MBF数据索引结构对数据快速检索的方法,其特征在于,包括:基于位图的MBF数据索引结构的设计、在所述数据索引结构中插入数据、对插入数据之后的数据索引结构进行数据检索;具体步骤如下:

步骤一、设计基于位图的MBF数据索引结构:

基于位图的MBF数据索引结构包括一个可定位型布隆滤波器MBF和一个字节数组Bitmap,其中,所述可定位型布隆滤波器MBF由一个通用型布隆滤波器和一个定位数组组成;其中,所述通用型布隆滤波器用于判断要检索的数据名称是否在所述插入数据之后的数据索引结构中;所述定位数组是与所述通用型布隆滤波器具有映射关系的比特数组,用于判断要检索的数据名称在字节数组Bitmap中的位置;所述字节数组Bitmap用于存储要检索的数据名称所对应的地址偏移量;

步骤二、在步骤一所设计的基于位图的MBF数据索引结构中插入数据名称,每插入一个数据名称的过程包括:

步骤2-1、定位数组初始化:将定位数组中的所有比特位初始化为0;

步骤2-2、输入数据名称:将数据名称输入到上述的基于位图的MBF数据索引结构中;

步骤2-3、对该数据名称进行K次哈希编码:所述哈希函数选用CityHash256,同时,根据通用型布隆滤波器的大小来确定编码长度及编码次数K值;

步骤2-4、将K次哈希操作所映射的通用型布隆滤波器的比特位数值全部置为1:即如果哈希操作映射到通用型布隆滤波器的一个比特位,则该比特位置1,通过K次哈希操作后数据名称被插入到通用型布隆滤波器中;

步骤2-5、计算定位数组的数值:根据数据名称的K次哈希操作在通用型布隆滤波器中的映射值,计算得出定位数组的数值;具体过程是:

首先,将通用型布隆滤波器平均分为j个大小相同的部分,同时定位数组的大小设置为j比特;通用型布隆滤波器的每一个部分依次对应定位数组的一个比特位;

当进行数据名称插入时,若通用型布隆滤波器中的第i个部分存在哈希映射,则相应定位数组的第i个比特位的值将设置为1,否则该比特位的值为0,i=1,2,…,j-1,j;

经过数据名称的K次哈希映射,最终得出j比特定位数组的数值;

步骤2-6、计算该数据名称在字节数组Bitmap中的位置:根据步骤2-5中得出的定位数组的数值计算该数据名称在字节数组Bitmap中的第几部分的第几槽;具体过程是:

首先,将Bitmap的槽个数与定位数组的大小设置成指数关系,即Bitmap的槽个数为2j,并平均分为N部分;

然后,根据该定位数组的数值计算出该数据名称在Bitmap中的第m部分以及该部分的具体槽位置,m=1,2,…,N-1,N;

步骤2-7、为该数据名称分配地址偏移量:根据步骤2-6得到的该数据名称插入到所在部分的顺序为该数据名称标序号,该序号即为该数据名称在存储器中的地址偏移量,并将该地址偏移量存储在该数据名称所在的字节数组Bitmap的槽内;

至此,完成了一个数据名称的插入操作;

步骤三、数据检索,对一个数据名称检索的步骤如下:

步骤3-1、定位数组初始化:将定位数组中的所有比特位初始化为0;

步骤3-2、输入数据名称:将数据名称输入到上述的基于位图的MBF数据索引结构中;

步骤3-3、对该输入的数据名称进行K次哈希编码:采用CityHash256,并取步骤2-3确定的编码长度及编码次数K值对该数据名称进行K次哈希编码;

步骤3-4、判断K次哈希操作所映射的通用型布隆滤波器的比特位数值是否全为1,若映射值全为1,则该输入的数据名称存在于基于位图的MBF数据索引结构中,并继续执行步骤3-5,完成检索;否则,该输入的数据名称不存在于该基于位图的MBF数据索引结构中,终止检索;

步骤3-5、计算定位数组的数值:根据该输入的数据名称的K次哈希操作在通用型布隆滤波器中的映射值,计算得到定位数组的数值;

步骤3-6、计算该输入的数据名称在字节数组Bitmap中的位置:根据定位数组的数值计算该输入的数据名称在字节数组Bitmap中的具体位置,即在字节数组Bitmap中的第几部分的第几个槽;

步骤3-7、输出检索结果:读取与该输入的数据名称所对应的字节数组Bitmap中具体位置所存储的地址偏移量,该地址偏移量即为检索结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710956392.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top