[发明专利]基于分布熵的局部敏感哈希高维索引方法有效
申请号: | 201110443604.X | 申请日: | 2011-12-27 |
公开(公告)号: | CN102609441A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 张伟;高科;张勇东;李锦涛 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 局部 敏感 哈希高维 索引 方法 | ||
1.一种局部敏感哈希高维索引方法,所述方法包括:
步骤1)生成局部敏感哈希函数候选集合;
步骤2)根据训练数据集,计算局部敏感哈希函数候选集合中每个哈希函数的分布熵值,并从中选取分布熵值最高的L个哈希函数作为局部敏感哈希函数集合;
步骤3)基于该局部敏感哈希函数集合,将待索引数据集存储到哈希表中。
2.根据权利要求1所述的方法,在所述步骤1)中局部敏感哈希函数候选集合中包括L’个哈希函数gi(x),其中
gi(x)=[hi1(x),...hij(x),...hik(x)],(1≤i≤L′,1≤j≤k),x为d维数据,d为大于2的整数。
3.根据权利要求2所述的方法,所述步骤2)包括以下步骤:
步骤21)依据局部敏感哈希函数候选集合中每个哈希函数gi(x)执行如下操作:
211)为训练数据集建立一个哈希表,具有相同哈希值的数据被存储到该哈希表的同一表项中,而具有不同哈希值的数据被存储到该哈希表的不同表项中;
212)统计该哈希表中不为空的表项的个数m,以及表项r中存储的数据的个数Nr(1≤r≤m);
213)计算哈希函数gi(x)的分布熵
步骤22)从局部敏感哈希函数候选集合中选取分布熵值最高的L个哈希函数作为局部敏感哈希函数集合。
4.根据权利要求2或3所述的方法,所述步骤3)包括以下步骤:
步骤31)建立L个空哈希表,每个哈希表对应于局部敏感哈希函数集合中的一个哈希函数;
步骤32)采用局部敏感哈希函数集合中的每个哈希函数执行下列操作:采用该哈希函数计算待索引的数据集中每个数据的哈希值,具有相同哈希值的数据将被存储到该哈希函数对应的哈希表的同一表项中,不同哈希值的将被存储到该哈希函数对应的哈希表的不同表项中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110443604.X/1.html,转载请声明来源钻瓜专利网。