[发明专利]随机结构保形哈希信息检索方法在审

专利信息
申请号: 201410604395.6 申请日: 2014-10-30
公开(公告)号: CN104376051A 公开(公告)日: 2015-02-25
发明(设计)人: 邵岭;蔡子贇;刘力;余孟洋 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 吴树山
地址: 215101 江苏省苏州市吴中区木*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 随机 结构 保形哈希 信息 检索 方法
【说明书】:

技术领域

发明属于计算机信息数据处理技术领域,特别是涉及一种用于计算机视觉、数据挖掘、机器学习或相似搜索的随机结构保形哈希信息检索方法。

背景技术

在信息检索、机器学习、模式识别和数据挖掘中相似性搜索是一个需要解决的问题。一般来说,有效的相似性搜索方法会在度量空间中建立索引结构,早期的关于相似性搜索的研究可以追溯到20世纪70年代。具体的说,当维度较低≤20时,一些基于数据结构的方法如KD-树、VP-树和R+树等可以解决相似性搜索的问题。然而,随着数据维度的增长,在信息数据处理领域中如何有效地实现相似性搜索问题的难度不断上升。现有采取“近似值”的概念来解决相似性搜索问题的方法,如为了提高检索效率,哈希算法需要得到一个从欧几里德空间到汉明空间的哈希函数,利用二进制编码的哈希算法只要包含两个优势:一是二进制哈希码节约了储存空间;二是在相似性搜索的检索过程中可以有效地计算训练数据和测试样本之间的汉明距(XOR运算)、哈希表中的时间复杂度近似为O(1)。

现有的哈希算法大体上可被分为基于随机投影和基于学习的两种。局部敏感哈希(LSH)是广泛应用的基于随机线性投影的哈希算法,可以有效地把数据点从高维空间映射到低维汉明空间;基于核的局部敏感哈希(KLSH)和加强多核的局部敏感哈希(BMKLSH)为了更好的检索效率可以在核空间中挖掘更多的相似性。为了寻找高维空间中测试点的相似最近邻,Panigrahy提出了了一种基于熵的哈希算法。Dong提出了基于统计特性模型的多探索局部敏感哈希,这是目前局部敏感哈希最好的变化。此外,Raginsky和Lazebnik用基于随机映射的自由分布的编码方案来确保两个向量和向量中偏移不变核的数值的二进制码的汉明距的关系。

只有当二进制哈希码足够长的时候,基于随机投影的哈希函数才会有效。因此,为了获得更加紧凑和准确的编码,许多基于学习的哈希算法被提出。通过挖掘数据的结构,然后表现在目标函数上,通过解决和目标函数相关的优化问题,基于学习的哈希算法可以获得哈希函数。谱哈希(SpH)是典型的非监督哈希算法,通过促使平衡的和不相关的约束对学习过的码,谱哈希可以学习到紧凑的二进制码并且保护数据中的相似性。主成分分析哈希(PCAH)相对于随机映射哈希可以获得更好的量化。此外,基于受限波尔兹曼机的语义哈希(SH)被提出。Liu等人提出了可以自动发现数据近邻内部结构的基于图像的哈希算法,同时可以学习到相应的紧凑的码,锚状图可加速谱分析的过程。近来有基于超球面的二进制植入技术球形哈希(Spherical Hashing)被提出.这个算法可以提供紧凑的数据形式和拓展的最近邻搜索。

然而,以上提到的哈希方法都存在一定的缺陷。虽然基于随机映射的哈希方法可以产生紧凑的码,但是简单的线性哈希函数却不可以映射出数据点之间潜在的关系。同时,因为线形的公式是由高维矩阵计算而得到的,这会带来很高的计算复杂度。另外,当码字十分长的时候,基于学习的哈希算法不会很有效。除此之外,那些先降低原始数据维度的哈希方法不能获得有着很好结构的低维数据结果。

近年来作为可以学习物体非负部分形式的矩阵分解算法,非负矩阵分解(NMF)在信息检索和数据挖掘中起了重要的作用。如一个有着M个N维数据向量的非负矩阵可以被NMF分解成两个非负矩阵U=[uid]∈RM×D和V=[ujd]∈RD×N,其结果可以很好地估计原始矩阵,如X≈UV。Lee和Seung也提出了两个目标函数去评估两个非负矩阵X和UV之间的距离,基于差异的目标函数可以被表示成:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410604395.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top