[发明专利]一种基于局部敏感哈希改进算法的相似性数据检索方法有效
申请号: | 201310664350.3 | 申请日: | 2013-12-10 |
公开(公告)号: | CN104035949A | 公开(公告)日: | 2014-09-10 |
发明(设计)人: | 马廷淮;陆颖华;田伟;朱节中 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 215101 江苏省苏州市吴中区木*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 敏感 改进 算法 相似性 数据 检索 方法 | ||
1.一种基于局部敏感哈希改进算法的相似性数据检索方法,其特征在于包含以下步骤:
步骤1),对需要处理的数据集合进行特征提取,得到预处理之后的数据集;
步骤2),将得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合;
步骤3),根据数据集特征以及所需的准确率和召回率来确定哈希表个数l,并根据局部敏感哈希函数族构建l个哈希表;
步骤4),将数据向量集合中的每一个对象分别通过l个哈希表进行映射,映射到相应的哈希桶中;
步骤5),将待查询对象以向量形式表示,从l个哈希表中任意选取一个哈希表进行映射,得到与待查询对象处于同一哈希桶的其他对象的集合;
步骤6),对于步骤5)中得到的对象的集合的每一个对象,在其余的哈希表分别进行查找,得到与这些对象处于同一哈希桶的其他对象的集合;
步骤7),将步骤5)和步骤6)得到的对象的集合融合形成最终的候选对象集合;
步骤8),计算候选对象集合中每一个对象与待查询对象之间的真实距离,并根据真实距离进行升序排序,得到最相似的对象。
2.根据权利要求1所述的基于局部敏感哈希改进算法的相似性数据检索方法,其特征在于,步骤3)中所述构建l个哈希表的步骤如下:
步骤301),根据实际采用的距离函数,选取局部敏感哈希函数族其中为局部敏感哈希族,hi表示该哈希函数族所包含的哈希函数,i=1,2,...,n;
步骤302),根据所需的准确率和召回率来选取参数k,在哈希函数族的基础上,对数据集中的点进行哈希,构造新的函数族使得距离近的点冲突的概率远大于距离远的点冲突的概率,其中每一个函数hi'由k个中的函数h1,h2,…,hk构成,即hi'={hi1,hi2,...,hik},i=1,2,...,m;
步骤303),从函数族中,根据数据集特征以及所需的准确率和召回率选取l个函数组成函数族G,其中每个哈希函数对应一个哈希表,形成l个哈希表。
3.根据权利要求1所述的基于局部敏感哈希改进算法的相似性数据检索方法,其特征在于,步骤5)中采用随机数方法来实现所述从l个哈希表中任意选取一个哈希表进行映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310664350.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于校准电源的系统和方法
- 下一篇:多相直流/直流转换器