[发明专利]Hadoop环境下多维索引结构OBF-Index的实现方法有效

申请号：	201711426263.9	申请日：	2017-12-26
公开（公告）号：	CN108121807B	公开（公告）日：	2021-06-04
发明（设计）人：	李劲;刘建坤;窦奇伟;何臻力;周维	申请（专利权）人：	云南大学
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/27
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平;陈靓靓
地址：	650091***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种Hadoop环境下多维索引结构OBF‑Index的实现方法，对数据集进行划分得到数据分片，对每个数据分片分别创建一个OBF索引对象并序列化为OBF索引文件进行存储，构建得到OBF‑Index；在需要使用数据集时，首先设置需要使用的数据集合A，然后分别读取每个数据分片的OBF索引文件并反序列化得到OBF索引对象，利用OBF索引对象查询数据集合A中的数据是否存在于该数据分片中，如果是，则将该数据分片传递给相应的Mapper，否则不作任何操作。本发明设计了一种多维索引结构OBF‑Index，可以高效地实现创建和查询，且能有效降低假阳率。
搜索关键词：	hadoop 环境多维索引结构 obf index 实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种Hadoop环境下多维索引结构OBF‑Index的实现方法，其特征在于包括以下步骤：S1：对数据集进行划分得到数据分片；S2：对每个数据分片分别生成一个OBF索引文件并存储，构建得到OBF‑Index，生成OBF索引文件的具体方法为：首先对数据分片进行处理，如果是一维数据则不作任何操作，如果是多维数据，将其映射为一维数据；为数据分片初始化一个OBF索引对象，该OBF索引对象中每个位置的初始值为绝对大值，依次读取数据分片的一维数据中的第n个元素a_n，n＝1,2,…,N，将其插入OBF索引对象，插入方法为：根据K个哈希函数h_k计算得到其K个位置h_k(a_n)，记位置h_k(a_n)原有值为F⁰(h_k(a_n))，令第h_k(a_n)个位置的值F(h_k(a_n))＝min{k,F⁰(h_k(a_n))}；将得到的OBF索引对象序列化为OBF索引文件；S3：在需要使用数据集时，首先设置需要使用的数据集合A，然后分别读取每个数据分片的OBF索引文件并反序列化得到OBF索引对象，利用OBF索引对象查询数据集合A中的数据是否存在于该数据分片中，如果是，则将该数据分片传递给相应的Mapper，否则不作任何操作；查询方法为：记需要查询的数据为x，根据K个哈希函数h_k计算得到K个位置h_k(x)，记h_k(x)对应位置的原有值为F⁰(h_k(x))，如果所有k≥F⁰(h_k(x))均为真，则该数据存在该OBF索引对象对应的数据分片中，否则不存在。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云南大学，未经云南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711426263.9/，转载请声明来源钻瓜专利网。

上一篇：一种基于局部特征匹配的图像搜索方法及系统
下一篇：审计日志的检索方法、装置及终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]Hadoop环境下多维索引结构OBF-Index的实现方法有效

专利文献下载