[发明专利]一种基于海明距离的近似成员查询方法在审
申请号: | 201810643226.1 | 申请日: | 2018-06-21 |
公开(公告)号: | CN109062941A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 陈叶芳;黄志鹏;钱江波;陈华辉 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙) 33226 | 代理人: | 程晓明 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比特组 布隆过滤器 近似 海明距离 查询数据 成员查询 哈希函数 比特位 采样 度量 构建 判定 集合 查询 敏感 | ||
本发明公开了一种基于海明距离的近似成员查询方法,特点是使用适用在海明距离度量下的局部敏感哈希函数(LSH)——比特采样LSH,结合标准布隆过滤器(BF)中的随机哈希函数,来构建布隆过滤器HLBF,对于给定的查询数据Q,生成L个比特组,若一个比特组在布隆过滤器HLBF中的b个地址的比特位都为1,则称该比特组通过,若L个比特组中任意一个通过,则判定查询数据Q是集合Ω的近似成员,优点在于能够在海明空间下完成近似成员的查询。
技术领域
本发明涉及一种近似成员查询方法,尤其是涉及一种基于海明距离的近似成员查询方法。
背景技术
现实生活中存在大量集合成员查询问题,即判断一个查询对象是否是一个数据集的成员。例如,安全官员想要检查某未知的物质(具有某些可检测的高维特征)是否属于清单所列的危险化学品;网络管理员想要知道某用户的行为特征是否有害;摄影比赛裁判想检查提交的照片是从与某一张大型数据库中的照片类似,以上的问题可以统称为近似成员查询。这些查询都需要判断查询数据与集合中数据的距离。查询数据与目标数据的距离越近,数据的价值就越高。如果是低维的小数据集,可通过线性查找解决,但是对一个海量的高维数据集采用线性查找匹配的话,会非常耗时,很多情况下无法满足实时的需要。为提高处理的速度,可以设置一个高维数据过滤器代表目标数据集合,根据距离过滤掉大部分查询数据,少量剩下的数据可以再通过常规方法进一步处理,可显著提高系统的整体性能。
对于近似成员查询问题的学术研究还刚刚起步,目前对于该问题的主要研究的方向是基于局部敏感哈希函数构建的布隆过滤器。布隆过滤器支持快速集合成员查询,是一种高效率的数据结构。一般处理近似成员查询问题(AMQ)使用布隆过滤器和局部敏感哈希结合的技术,包括DSBF(Distance-Sensitive Bloom Filters)[1]、LSBF(Locality-Sensitive Bloom Filter)[2]以及MLBF(Multi-granularity Locality-sensitive BloomFilter)[3]等。它们分别从理论上、适用度量上以及实际需求的变化上补充和完善了局部敏感哈希函数构建的布隆过滤器这一崭新的近似数据过滤技术。
但是以上技术没有考虑在海明空间下的近似成员查询问题。海明距离指二进制编码对应比特取值不同的总数。在我们生活工作中,海明距离是一个非常重要的距离度量,被广泛应用在深度学习、图像文档比较、基因分析等领域。
上述提到的文献如下:
[1]A.Kirsch and M.Mitzenmacher,“Distance-Sensitive Bloom Filters,”InALENEX,pp.41-50,2006.
[2]Y.Hua and B.Xiao,“Locality-Sensitive Bloom Filter for ApproximateMembership Query,”IEEE Trans.on Computers,vol.61,no.1,pp.817-830,June2012.
[3]J.Qian,Q.Zhu and H.Chen,“Multi-granularity Locality-sensitiveBloom Filter,”IEEE Trans.on Computers,vol.64,no.12,pp.3500-3514,2015.
发明内容
本发明所要解决的技术问题是提供一种基于海明距离的近似成员查询方法,能够解决海明空间下的近似成员查询问题。
本发明解决上述技术问题所采用的技术方案为:一种基于海明距离的近似成员查询方法,构建具有m个比特向量的布隆过滤器,记为HLBF,并将每个比特位的初始值置0;随机产生L组,每组k个的随机整数,设为hi,j,其中i=1,2,…,k,j=1,2,…,L,hi,j∈[1,w],均匀分布,w是二进制数据长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810643226.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于微服务架构的多模式交易实现系统及方法
- 下一篇:数据查询方法和装置