[发明专利]一种基于局部敏感哈希改进算法的相似性数据检索方法有效
申请号: | 201310664350.3 | 申请日: | 2013-12-10 |
公开(公告)号: | CN104035949A | 公开(公告)日: | 2014-09-10 |
发明(设计)人: | 马廷淮;陆颖华;田伟;朱节中 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 215101 江苏省苏州市吴中区木*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 敏感 改进 算法 相似性 数据 检索 方法 | ||
技术领域
本发明涉及相似性搜索技术领域,设计一种基于局部敏感哈希改进算法的相似性数据检索方法。
背景技术
数据的相似性研究是计算机科学中一个重要的基础性课题,在很多情况下,我们需要从海量数据对象集合中快速而准确地找出与给定数据相似的那些数据对象,这一过程称之为相似性搜索。相似性搜索被广泛应用于信息检索、数据挖掘、机器学习、信号处理等领域。目前广泛采用的检索算法主要是基于空间划分的算法,多表现为树形结构,例如R-tree,Kd-tree和SR-tree等。这种树形索引算法在处理低维数据空间上的相似性查询表现优异,但是当维数升高时,这些方法的性能会退化到线性查找的程度,也就是常说的“维度灾害”。LSH(Locality Sensitive Hashing)算法为解决这种“维度灾难”问题提供了一条有效途径,可用来解决主存储器中高维特征的相似性搜索问题。
LSH作为一种有效的近似最近邻查询技术,它把高维向量的相似性计算问题转换到低维的海明空间,并且在低维空间保证数据之间的相似性,其实质是一种数据降维操作。其过程主要分为两个过程:过滤和查询。过滤即选用一组特定的哈希函数,把具有相同特性的数据以特定的概率投影到同一个集合中,即保证数据的相似度越高,投影到相同集合中的概率就越大,从而实现了过滤掉非相似数据集,得到了近乎全部候选数据集合的目的。查询即将待查询的对象通过相同的哈希函数将其投影到对应的集合中,然后在所投影的集合中计算待查询对象与改集合中数据对象之间距离或者是相似程度,从而返回查询的结果。
根据LSH函数族的种类可以将LSH分为:基于比特取样的LSH、基于最小独立置换的LSH、基于随机投影的LSH、基于Lattice的LSH以及基于P稳定分布的LSH,其中基于P稳定分布的LSH被广泛应用。由于LSH在高维数据空间的优异性能,其被广泛应用于数据库、信息检索等领域。王洪峰提出了基于局部敏感哈希的网络视频重复检测方法,成功检索出与查询镜头想匹配的所有镜头,得到查询视频的重复或者近似重复的视频集。赵永威利用LSH构建了视觉词典,提取了查询目标与图像数据库的SIFT特征,利用LSH进行映射,实现特征点与视觉单词的匹配,生成视觉词典组。
LSH被提出之后得到了广泛的关注,并被成功用于许多应用中。但是LSH本身依然存在不少问题,比如为了获得较好的查询效果,需要大量的哈希表,进而消耗大量的内存空间。
发明内容
本发明所要解决的技术问题是针对传统的局部敏感哈希算法为了要得到更加准确的查询结果,需要大量哈希表的问题,提出一种基于随机策略的基于局部敏感哈希改进算法的相似性数据检索方法,利用由待查询对象随机选择哈希表的方法,减少需要存储的哈希表的个数,不仅可以较为精确地查找与待查询对象的最近邻对象,而且扩展了局部敏感哈希可以处理的数据集的大小。
本发明为解决上述技术问题采用以下技术方案:
一种基于局部敏感哈希改进算法的相似性数据检索方法,包含以下步骤:
步骤1),对需要处理的数据集合进行特征提取,得到预处理之后的数据集;
步骤2),将得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合;
步骤3),根据数据集特征以及所需的准确率和召回率来确定哈希表个数l,并根据局部敏感哈希函数族构建l个哈希表;
步骤4),将数据向量集合中的每一个对象分别通过l个哈希表进行映射,映射到相应的哈希桶中;
步骤5),将待查询对象以向量形式表示,从l个哈希表中任意选取一个哈希表进行映射,得到与待查询对象处于同一哈希桶的其他对象的集合;
步骤6),对于步骤5)中得到的对象的集合的每一个对象,在其余的哈希表分别进行查找,得到与这些对象处于同一哈希桶的其他对象的集合;
步骤7),将步骤5)和步骤6)得到的对象的集合融合形成最终的候选对象集合;
步骤8),计算候选对象集合中每一个对象与待查询对象之间的真实距离,并根据真实距离进行升序排序,得到最相似的对象。
作为本发明一种基于局部敏感哈希改进算法的相似性数据检索方法进一步的优化方案,步骤3)中所述构建l个哈希表的步骤如下:
步骤301),根据实际采用的距离函数,选取局部敏感哈希函数族其中为局部敏感哈希族,hi表示该哈希函数族所包含的哈希函数,i=1,2,...,n;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310664350.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于校准电源的系统和方法
- 下一篇:多相直流/直流转换器