[发明专利]多特征联合哈希信息检索方法有效
申请号: | 201410598595.5 | 申请日: | 2014-10-30 |
公开(公告)号: | CN104462196B | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 邵岭;蔡子贇;刘力;余孟洋 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 吴树山 |
地址: | 215101 江苏省苏州市吴中区木*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 哈希 复杂度分析 目标函数 信息检索 冗余 低维 保护目标 测试样本 概率分布 更新规则 哈希函数 计算训练 交替迭代 紧凑矩阵 数据分布 整体收敛 算子 有效地 正交基 联合 迭代 高维 嵌入 优化 融合 学习 | ||
1.一种多特征联合哈希信息检索方法,其特征在于包括如下基本步骤:
步骤1建立目标函数:保护目标空间的数据分布,用热核公式构建相关的N×N的核矩阵,同时得到NMF中的紧凑矩阵基并且减少冗余;其具体步骤如下:
步骤1.1:给出第i个特征训练数据用热核公式构建相关的N×N的核矩阵:其中τ是相关的可变参数,从每一个特征数据{K1,...,Kn}以计算出多核矩阵,
步骤1.2:定义融合矩阵为其中为得到一个更加有意义的低维矩阵分解,为二进制码V=[v1,…,vN]设定一个约束作为相似概率正则化,可利用它保护目标空间的数据分布,其优化可表示如下:
其中,是在第i个特征空间中和之间的对称联合概率;采用高斯函数去衡量它:
其中,σ是高斯平滑参数,可以估量欧几里德距离;
步骤1.3:第i个特征的相似概率正则化可以被降低成:
其中,Li=D(i)-W(i),是对称相似矩阵,D(i)是输入为对角矩阵;为同时得到NMF中的紧凑矩阵基和减少冗余,希望NMF的基矩阵尽可能的正交,如UTU-I=0,同时最小化||UTU-I||2并且让U近似正交;
步骤1.4:结合以上步骤1.3所述的tr(VLiVT)和||UTU-I||2两个约束条件进行优化如下:
其中,γ和η是两个可以平衡NMF的近似误差和附加约束的正系数;
步骤2交替优化:通过一个迭代的过程,优化U和V,得到基算子U和低维数据V的更新规则;其具体步骤如下:
步骤2.1:首先把公式(6)中不连续的V∈{0,1}d×N放到域上,为保持NMF去获得一个更优化的解,通过一个迭代的过程,优化(U,V)分为两步,其α在区间(α1,…,αn)之间,每一步的U、V和α都被不停的优化,并且下一步再次迭代,直到收敛迭代过程才停止;
步骤2.2:优化U和V首先确定α,替换和运用拉格朗日乘数函数:
公式(7)中的Φ和Ψ是两个矩阵,为使U和V都大于等于0,其中所有的元素均为拉格朗日乘数,然后让的偏导数相对于U和V为0,如即可得:
步骤2.3:运用KKT条件,有互补松弛性条件ΦijUij=0和ΨijVij=0,在公式(8)和(9)的相关元素乘上Uij和Vij,对Uij和Vij有以下的公式:
(-KVT+UVVT+2ηUUTU-2ηU)ijUij=0 (10),
(-UTK+UTUV+γVL)ijVij=0 (11),
于是,和标准的NMF过程类似,可得到更新规则如下:
其中和为确保U和V中的所有元素均为正值,U需要进行归一化,U和V都具有收敛性,已经证明了U和V的每一次更新,目标函数都单调不增加;
步骤2.4:为确定U和V,忽略不相干的范数,定义拉格朗日函数如下:
其中,λ和β=(β1,…,βn)是拉格朗日乘数,相对于α,λ和β的的偏导数,如和需要:
同时有互补松弛条件:
βjαj=0,j=1,…,n. (18),
步骤2.5:对一些j而言,αj=0,尤其J={j|αj=0},优化的结果会包含一些0;在这种情况下,与最小化的优化过程不同;不失一般性,设αj>0,然后,β=0;从公式(15),可得:
如果将以上的公式转化到矩阵中并且定义Tj=tr(UVKj)-γtr(VLjVT)/2,可得:
可用AαT=B表示公式(20),矩阵A实际上是Ki基于F内积的格拉姆矩阵
步骤2.6:让M=(vec(K1),…,vec(Kn)),其中vec(Ki)是Ki的向量化,然后A=MTM,从n个不同的特征得出的核矩阵K1,...,Kn线性不相关的;结合公式(17)且消除λ,可得到以下线性公式:
可用表示公式(21);根据不同特征的变化,1=(1,…,1)和A中所有行都是线性不相关的;然后有于是,的逆存在并且
步骤3整体收敛:通过原始的目标函数,然后进行交替迭代;其具体步骤如下:
步骤3.1:通过L(U,V,α)在公式(6)定义原始的目标函数,然后交替迭代过程可以表示为:
于是,有下面的不等式:
L(U(m-1),V(m-1),α(m-1))≥L(U(m),V(m),α(m-1))≥L(U(m),V(m),α(m))≥L(U(m+1),V(m+1),α(m))≥L(U(m+1),V(m+1),α(m+1))≥....
即:m→∞时,L(U(m),V(m),α(m))是单调不增加的,有L(U,V,α)≥0,然后交替迭代收敛;
步骤4哈希函数的生成:将得出的低维实数根据门限值的划分转换为二进制码,使用多变量的回归方法来准确地找到相关的哈希函数,计算训练数据和测试样本之间的汉明距即XOR运算,得出最终的结果;其具体步骤如下:
步骤4.1:计算出权向量α=(α1,…,αn),融合核矩阵K和联合概率拉普拉斯矩阵L;于是,从公式(12)和公式(13)得到多特征RKNMF基和低维表示其中d<<Di,i=1,…,n,将以上的低维实数V=[v1,…,vN]表示且根据门限值的划分转换为二进制码,如果vp中的第l个元素比门限值大,那么否则为0,其中p=1,…,N和l=1,…,d;
步骤4.2:为确保语义哈希的效率,一个好的语义哈希算法应该是熵最大化的;同时,从信息量的原则可知,通过一个均匀的概率分布,信源可以到达一个最大的熵;如果在数据上的码的熵很小,整个文件会被映射到一小部分的码上;为满足熵最大化原则,vp中元素的门限值采用vp的中值;因此,一半数值会被设为1,另外一半设为0,以将实数码计算成二进制码;
步骤4.3:使用多变量的回归方法来准确地找到相关的哈希函数;在分布中Yi|Xi~Bernoulli(pi),i=1,…,n,对参数为θ的函数Pr(Yi=1|Xi=x)=hθ(x),似然函数根据最大对数似然函数准则,定义逻辑回归函数为:
其中,是vp中的每一个部分的回归函数;公式log(x)=(log(x1),…,log(xn))T对<·,·>表示了内积;Θ是大小为d×d相关的回归矩阵;1表示了N×1矩阵,采用ξ||Θ||2作为逻辑回归中避免过拟合的正则化项;
步骤4.4:为了最小化J(Θ),提供一个标准的梯度下降算法;学习率为r的更新公式为:
更新公式会在Θt+1和Θt之间的差异||Θt+1-Θt||2小于一个经验常数时到达收敛,然后可得到回归矩阵Θ,再通过公式(24)的嵌入,如最近整数函数;
步骤4.5:上述方法给出一个样本,可通过热核函数,先计算出每一个特征的相关核矩阵其中是N×1矩阵,然后通过优化权重α融合这些核:和通过线性映射矩阵P=(UTU)-1UT获得低维实数表示,由于hΘ是sigmoid函数,最终新的样本的哈希码被计算得出:
其中,函数是对hΘ每一个值取最近整数;事实上,门限值为0.5,它有属性hΘ∈(0,1)去二进制化如果hΘ(P·Knew)的输出比特比0.5大,标这个比特为1,否则为0,这种情况下,可得到对任意数据点的最终多特征联合哈希码;
步骤4.6:上述是一种嵌入方法,所有的训练样本和测试样本都是经过多特征RKNMF优化和逻辑回归去确保它们在同一个子空间,不需要再训练,相关的MAH在下面的过程中描述:
多特征联合哈希检索方法(MAH),输入:
通过热核计算从n个不同的特征得到的一组训练核矩阵:{K1,…,Kn};
哈希码的目标维度d;
逻辑回归的学习率r和正则化参数{γ,η,ξ};
输出:核权重α=(α1,…,αn)基矩阵U和回归矩阵Θ;
一是通过公式(4)对每一个特征计算相似矩阵W(i);
二是初始化α=(1/n,1/n,…,1/n);
三是重复;
四是通过公式(12)和公式(13)计算基矩阵U和低维矩阵表示V;
五是通过公式(21)获取核权重
六是直到收敛;
七是通过公式(23)计算回归矩阵Θ,最终的对一个样本的MAH编码在公式(24)中定义;
步骤5复杂度分析:对上述步骤1-4的多特征联合哈希信息检索方法进行复杂度分析,其具体步骤如下:
MAH学习的复杂度主要包含两个部分:第一部分是热核的构建和对不同特征的相似概率的正则化,如Ki和Li;从步骤3.1可得,该部分的时间复杂度为第二部分是交替优化,在更新(U,V)的步骤,矩阵分解的时间复杂度为α的更新在MAH中的复杂度为所以,MAH的时间复杂度为其中T为交替优化的迭代次数;从经验分析得出,T会比10小,也就是MAH会在10个循环内收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410598595.5/1.html,转载请声明来源钻瓜专利网。