[发明专利]一种基于局部敏感哈希改进算法的相似性数据检索方法有效
申请号: | 201310664350.3 | 申请日: | 2013-12-10 |
公开(公告)号: | CN104035949A | 公开(公告)日: | 2014-09-10 |
发明(设计)人: | 马廷淮;陆颖华;田伟;朱节中 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 215101 江苏省苏州市吴中区木*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于局部敏感哈希改进算法的相似性数据检索方法,首先对数据对象进行特征提取,将每一个数据对象使用其特征集合表示,基于向量空间模型把每一个数据对象转换为特征空间的向量;然后使用一组哈希函数,建立多个哈希表,将所有的数据对象映射到相应的哈希桶中;接着对于查询对象,随机选择一个哈希表进行映射,对于与查询对象在同一哈希桶的数据对象,以同样方式利用剩余的哈希表进行映射,并将所有与这些对象在同一哈希桶中的对象合并成为查询候选集;最后将查询对象与查询候选集中的数据对象进行真实距离的计算,从而得到最邻近对象。本发明在保持准确率和召回率的前提下减少了传统局部敏感哈希的内存需求,适合于处理大量的高维数据的相似性检索。 | ||
搜索关键词: | 一种 基于 局部 敏感 改进 算法 相似性 数据 检索 方法 | ||
【主权项】:
一种基于局部敏感哈希改进算法的相似性数据检索方法,其特征在于包含以下步骤:步骤1),对需要处理的数据集合进行特征提取,得到预处理之后的数据集;步骤2),将得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合;步骤3),根据数据集特征以及所需的准确率和召回率来确定哈希表个数l,并根据局部敏感哈希函数族构建l个哈希表;步骤4),将数据向量集合中的每一个对象分别通过l个哈希表进行映射,映射到相应的哈希桶中;步骤5),将待查询对象以向量形式表示,从l个哈希表中任意选取一个哈希表进行映射,得到与待查询对象处于同一哈希桶的其他对象的集合;步骤6),对于步骤5)中得到的对象的集合的每一个对象,在其余的哈希表分别进行查找,得到与这些对象处于同一哈希桶的其他对象的集合;步骤7),将步骤5)和步骤6)得到的对象的集合融合形成最终的候选对象集合;步骤8),计算候选对象集合中每一个对象与待查询对象之间的真实距离,并根据真实距离进行升序排序,得到最相似的对象。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310664350.3/,转载请声明来源钻瓜专利网。
- 上一篇:用于校准电源的系统和方法
- 下一篇:多相直流/直流转换器