[发明专利]一种基于海明距离的近似成员查询方法在审
申请号: | 201810647790.0 | 申请日: | 2018-06-22 |
公开(公告)号: | CN109034197A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 钱江波;黄志鹏;陈叶芳;陈华辉 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙) 33226 | 代理人: | 程晓明 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 布隆过滤器 虚拟数据 近似 海明距离 个位 查询数据 成员查询 哈希函数 位串 比特生成 虚拟对象 查询 比特位 翻转 采样 度量 构建 判定 集合 敏感 重建 创建 | ||
本发明公开了一种基于海明距离的近似成员查询方法,特点是使用适用在海明距离度量下的局部敏感哈希函数(LSH)——比特采样LSH,结合标准布隆过滤器(BF)中的随机哈希函数,来构建布隆过滤器HLBF,而对于给定的查询数据Q,通过随机翻转Q上s个比特生成c个虚拟数据,对于每一个虚拟数据生成L个位串,若一个位串在布隆过滤器HLBF中的b个地址的比特位都为1,则称该位串通过,若c个虚拟数据,每个虚拟数据有L个位串,即c*L个位串中任意一个通过,则判定查询数据Q是集合Ω的近似成员,优点在于能够在海明空间下完成近似成员的查询,同时通过创建虚拟对象,在不重建布隆过滤器的条件下,可以支持不同粒度的查询。
技术领域
本发明涉及一种近似成员查询方法,尤其是涉及一种基于海明距离的近似成员查询方法。
背景技术
现实生活中存在大量集合成员查询问题,即判断一个查询对象是否是一个数据集的成员。例如,安全官员想要检查某未知的物质(具有某些可检测的高维特征)是否属于清单所列的危险化学品;网络管理员想要知道某用户的行为特征是否有害;摄影比赛裁判想检查提交的照片是从与某一张大型数据库中的照片类似,以上的问题可以统称为近似成员查询。这些查询都需要判断查询数据与集合中数据的距离。查询数据与目标数据的距离越近,数据的价值就越高。如果是低维的小数据集,可通过线性查找解决,但是对一个海量的高维数据集采用线性查找匹配的话,会非常耗时,很多情况下无法满足实时的需要。为提高处理的速度,可以设置一个高维数据过滤器代表目标数据集合,根据距离过滤掉大部分查询数据,少量剩下的数据可以再通过常规方法进一步处理,可显著提高系统的整体性能。
对于近似成员查询问题的学术研究还刚刚起步,目前对于该问题的主要研究的方向是基于局部敏感哈希函数构建的布隆过滤器。布隆过滤器支持快速集合成员查询,是一种高效率的数据结构。一般处理近似成员查询问题(AMQ)使用布隆过滤器和局部敏感哈希结合的技术,包括DSBF(Distance-Sensitive Bloom Filters)[1]、LSBF(Locality-Sensitive Bloom Filter)[2]以及MLBF(Multi-granularity Locality-sensitive BloomFilter)[3]等。它们分别从理论上、适用度量上以及实际需求的变化上补充和完善了局部敏感哈希函数构建的布隆过滤器这一崭新的近似数据过滤技术。
但是以上技术没有考虑在海明空间下的近似成员查询问题。海明距离指二进制编码对应比特取值不同的总数。在我们生活工作中,海明距离是一个非常重要的距离度量,被广泛应用在深度学习、图像文档比较、基因分析等领域。
此外,在许多现实场景下,在建立布隆过滤器结构之前近似距离参数是不容易给出的,而且对于过滤粒度的需求在实际中经常是变换的。就好比虽然一个查询点在某个距离参数下,它是远离数据集的,然而,其他应用程序需求参数下,则可能成为数据集的近似成员。不幸的是,一旦布隆过滤器结构构建好之后,它的过滤距离就已经确定下来了,无法再改变。
上述提到的文献如下:
[1]A.Kirsch and M.Mitzenmacher,“Distance-Sensitive Bloom Filters,”InALENEX,pp.41-50,2006.
[2]Y.Hua and B.Xiao,“Locality-Sensitive Bloom Filter for ApproximateMembership Query,”IEEE Trans.on Computers,vol.61,no.1,pp.817-830,June2012.
[3]J.Qian,Q.Zhu and H.Chen,“Multi-granularity Locality-sensitiveBloom Filter,”IEEE Trans.on Computers,vol.64,no.12,pp.3500-3514,2015.
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810647790.0/2.html,转载请声明来源钻瓜专利网。