[发明专利]多特征联合哈希信息检索方法有效
申请号: | 201410598595.5 | 申请日: | 2014-10-30 |
公开(公告)号: | CN104462196B | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 邵岭;蔡子贇;刘力;余孟洋 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 吴树山 |
地址: | 215101 江苏省苏州市吴中区木*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 哈希 复杂度分析 目标函数 信息检索 冗余 低维 保护目标 测试样本 概率分布 更新规则 哈希函数 计算训练 交替迭代 紧凑矩阵 数据分布 整体收敛 算子 有效地 正交基 联合 迭代 高维 嵌入 优化 融合 学习 | ||
本发明涉及一种多特征联合哈希信息检索方法,其特征在于包括如下基本步骤:一是建立目标函数:保护目标空间的数据分布,同时得到NMF中的紧凑矩阵基并且减少冗余;二是交替优化:通过一个迭代的过程,优化U和V,得到基算子U和低维数据V的更新规则;三是整体收敛:通过原始的目标函数,然后进行交替迭代;四是哈希函数的生成:通过计算训练数据和测试样本之间的汉明距即XOR运算,得出最终的结果;五是复杂度分析:对上述步骤1‑4的方法进行复杂度分析。本发明能够有效地保护数据的概率分布,减少低维数据的冗余,使得学习到一个可融合从多个源中得到的多种表示,同时通过RKNMF来保护高维联合分布和获得正交基的哈希嵌入函数。
技术领域
本发明属于计算机信息数据处理技术领域,特别是涉及一种用于计算机视觉、数据挖掘、机器学习或相似搜索的多特征联合哈希信息检索方法。
背景技术
哈希码的学习在信息处理及分析等领域中起着关键的作用,如物体识别、图像检索和文档理解等。随着计算机技术的进步和万维网的发展,大量的数字数据需要相似信息的可拓展检索。相似性搜索的最基本也即最本质的方法是最近邻搜索:给一个查询图像,在一个巨大的数据库中寻找出和其最相似的一张图片并且对这个查询图像贴上与最近邻域相同的标签。由于实际应用中数据库较大,最近邻域搜索是不可扩展的线性搜索方法(O(N))。为了克服计算的复杂度问题,近来一些基于树的搜索方法被提出去分割数据空间,其中,KD-树和R-树被成功地应用在了快速响应检索数据中。然而,这些方法并不适合于高维数据并且相对于线性而言不能保证快速搜索。实际上,由于视觉算子经常会有成百甚至上千的维度,大部分的基于视觉的任务都会遭受维度灾难。于是,又有一些哈希方法提出了有效地从高维特征空间到保形的低维汉明空间的数据嵌入,其中在低维空间的中,可以找到给出的测试样本的最近邻的估计和次线性的时间复杂度。
最著名的哈希方法之一是基于保形的局部敏感哈希(LSH)。LSH简单的使用随机线性投影(随机门限值)使欧几里德空间中的数据点靠近。谱哈希是典型的非监督哈希方法,用多样本的拉普拉斯-贝尔特拉米特征函数去确定二进制码。此外,PCA哈希(PCAH)这样的原则线形投影比随机投影哈希有着更好的量化。另外一种比较出名的哈希方法,锚图哈希(AGH)可以通过易处理的低阶邻接矩阵学习紧凑的二进制码。AGH可以把图拉普拉斯特征向量推到特征函数上。
然而,以前的哈希方法都是主要集中于单个特征。在它们的构架中,只有一种特征算子被用作学习哈希函数。事实上,为了获得一个更综合的描述,图片或者物体经常通过不同种类的特征表示,同时每一个特征有它自己的特点。只有融合这些不同的特征算子到哈希函数中,才会得到多特征的哈希方法。最近,为了有效的相似性搜索,一些多特征的哈希方法被提出,如多特征的锚图哈希(MVAGH),连续更新的多特征谱哈希(SU-MVSH),多特征哈希(MVHCS),多信息源的复合哈希(CHMIS)和深度多特征哈希(DMVH)。这些方法主要依靠谱,图和深度学习的方法去完成数据结构的保形。然而,单纯的只结合以上方法的哈希对噪声敏感,并且有着很高的计算复杂度。
在数据挖掘中,NMF方法不同于其它的含有正负值的嵌入方法,适合子空间的学习,它提供了包含物体局部部分的基,可用于聚类,协同过滤,孤立点监测等。如NMF可以学习物体的非负部分,给出一个非负数据的矩阵:X的每一列都是一个样本数据,NMF的目标是找到可以近似的表达原始矩阵的两个满秩的非负矩阵和如X≈UV;实际上总是有d<min(D,N),于是得到以下最小化的目标函数:
此处||·||是弗洛宾尼斯范数,为了优化上面的目标函数,迭代更新过程:
现有文献已经证明以上的更新过程可以找到的局部最小,从NMF得到的矩阵V为低维表示,矩阵U为基矩阵。尽管NMF方法优于现有其它方法,但是现有的NMF算法因无法解决保护原始高维数据的局部及总体结构的问题,所以存在获得的低维数据无法最大程度的继承高维数据的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410598595.5/2.html,转载请声明来源钻瓜专利网。