[发明专利]多特征联合哈希信息检索方法有效

申请号：	201410598595.5	申请日：	2014-10-30
公开（公告）号：	CN104462196B	公开（公告）日：	2019-01-22
发明（设计）人：	邵岭;蔡子贇;刘力;余孟洋	申请（专利权）人：	南京信息工程大学
主分类号：	G06F16/903	分类号：	G06F16/903
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	吴树山
地址：	215101 江苏省苏州市吴中区木***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种多特征联合哈希信息检索方法，其特征在于包括如下基本步骤：一是建立目标函数：保护目标空间的数据分布，同时得到NMF中的紧凑矩阵基并且减少冗余；二是交替优化：通过一个迭代的过程，优化U和V，得到基算子U和低维数据V的更新规则；三是整体收敛：通过原始的目标函数，然后进行交替迭代；四是哈希函数的生成：通过计算训练数据和测试样本之间的汉明距即XOR运算，得出最终的结果；五是复杂度分析：对上述步骤1‑4的方法进行复杂度分析。本发明能够有效地保护数据的概率分布，减少低维数据的冗余，使得学习到一个可融合从多个源中得到的多种表示，同时通过RKNMF来保护高维联合分布和获得正交基的哈希嵌入函数。
搜索关键词：	哈希复杂度分析目标函数信息检索冗余低维保护目标测试样本概率分布更新规则哈希函数计算训练交替迭代紧凑矩阵数据分布整体收敛算子有效地正交基联合迭代高维嵌入优化融合学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种多特征联合哈希信息检索方法，其特征在于包括如下基本步骤：步骤1建立目标函数：保护目标空间的数据分布，用热核公式构建相关的N×N的核矩阵，同时得到NMF中的紧凑矩阵基并且减少冗余；其具体步骤如下：步骤1.1：给出第i个特征训练数据用热核公式构建相关的N×N的核矩阵：其中τ是相关的可变参数，从每一个特征数据{K₁，...，K_n}以计算出多核矩阵，步骤1.2：定义融合矩阵为其中为得到一个更加有意义的低维矩阵分解，为二进制码V＝[v₁，…，v_N]设定一个约束作为相似概率正则化，可利用它保护目标空间的数据分布，其优化可表示如下：其中，是在第i个特征空间中和之间的对称联合概率；采用高斯函数去衡量它：其中，σ是高斯平滑参数，可以估量欧几里德距离；步骤1.3：第i个特征的相似概率正则化可以被降低成：其中，L_i＝D⁽ⁱ⁾‑W⁽ⁱ⁾，是对称相似矩阵，D⁽ⁱ⁾是输入为对角矩阵；为同时得到NMF中的紧凑矩阵基和减少冗余，希望NMF的基矩阵尽可能的正交，如U^TU‑I＝0，同时最小化||U^TU‑I||²并且让U近似正交；步骤1.4：结合以上步骤1.3所述的tr(VLiVT)和||UTU‑I||2两个约束条件进行优化如下：其中，γ和η是两个可以平衡NMF的近似误差和附加约束的正系数；步骤2交替优化：通过一个迭代的过程，优化U和V，得到基算子U和低维数据V的更新规则；其具体步骤如下：步骤2.1：首先把公式(6)中不连续的V∈{0，1}^d×N放到域上，为保持NMF去获得一个更优化的解，通过一个迭代的过程，优化(U,V)分为两步，其α在区间(α₁，…，α_n)之间，每一步的U、V和α都被不停的优化，并且下一步再次迭代，直到收敛迭代过程才停止；步骤2.2：优化U和V首先确定α，替换和运用拉格朗日乘数函数：公式(7)中的Φ和Ψ是两个矩阵，为使U和V都大于等于0，其中所有的元素均为拉格朗日乘数，然后让的偏导数相对于U和V为0，如即可得：步骤2.3：运用KKT条件，有互补松弛性条件Φ_ijU_ij＝0和Ψ_ijV_ij＝0，在公式(8)和(9)的相关元素乘上U_ij和V_ij，对U_ij和V_ij有以下的公式：(‑KVT+UVVT+2ηUUTU‑2ηU)ijUij＝0 (10)，(‑UTK+UTUV+γVL)ijVij＝0 (11)，于是，和标准的NMF过程类似，可得到更新规则如下：其中和为确保U和V中的所有元素均为正值，U需要进行归一化，U和V都具有收敛性，已经证明了U和V的每一次更新，目标函数都单调不增加；步骤2.4：为确定U和V，忽略不相干的范数，定义拉格朗日函数如下：其中，λ和β＝(β₁，…，β_n)是拉格朗日乘数，相对于α,λ和β的的偏导数，如和需要：同时有互补松弛条件：βjαj＝0，j＝1，…，n. (18)，步骤2.5：对一些j而言，α_j＝0，尤其J＝{j|α_j＝0}，优化的结果会包含一些0；在这种情况下，与最小化的优化过程不同；不失一般性，设α_j＞0，然后，β＝0；从公式(15)，可得：如果将以上的公式转化到矩阵中并且定义Tj＝tr(UVKj)‑γtr(VLjVT)/2，可得：可用Aα^T＝B表示公式(20)，矩阵A实际上是K_i基于F内积的格拉姆矩阵步骤2.6：让M＝(vec(K1),…，vec(Kn))，其中vec(Ki)是Ki的向量化，然后A＝MTM，从n个不同的特征得出的核矩阵K1，...，Kn线性不相关的；结合公式(17)且消除λ，可得到以下线性公式：可用表示公式(21)；根据不同特征的变化，1＝(1,…，1)和A中所有行都是线性不相关的；然后有于是，的逆存在并且步骤3整体收敛：通过原始的目标函数，然后进行交替迭代；其具体步骤如下：步骤3.1：通过L(U,V,α)在公式(6)定义原始的目标函数，然后交替迭代过程可以表示为：于是，有下面的不等式：L(U(m‑1)，V(m‑1)，α(m‑1))≥L(U(m)，V(m)，α(m‑1))≥L(U(m)，V(m)，α(m))≥L(U(m+1)，V(m+1)，α(m))≥L(U(m+1)，V(m+1)，α(m+1))≥....即：m→∞时，L(U(m)，V(m)，α(m))是单调不增加的，有L(U，V，α)≥0，然后交替迭代收敛；步骤4哈希函数的生成：将得出的低维实数根据门限值的划分转换为二进制码，使用多变量的回归方法来准确地找到相关的哈希函数，计算训练数据和测试样本之间的汉明距即XOR运算，得出最终的结果；其具体步骤如下：步骤4.1：计算出权向量α＝(α₁，…，α_n)，融合核矩阵K和联合概率拉普拉斯矩阵L；于是，从公式(12)和公式(13)得到多特征RKNMF基和低维表示其中d＜＜D_i，i＝1，…，n，将以上的低维实数V＝[v₁，…，v_N]表示且根据门限值的划分转换为二进制码，如果v_p中的第l个元素比门限值大，那么否则为0，其中p＝1，…，N和l＝1，…，d；步骤4.2：为确保语义哈希的效率，一个好的语义哈希算法应该是熵最大化的；同时，从信息量的原则可知，通过一个均匀的概率分布，信源可以到达一个最大的熵；如果在数据上的码的熵很小，整个文件会被映射到一小部分的码上；为满足熵最大化原则，vp中元素的门限值采用vp的中值；因此，一半数值会被设为1，另外一半设为0，以将实数码计算成二进制码；步骤4.3：使用多变量的回归方法来准确地找到相关的哈希函数；在分布中Y_i|X_i～Bernoulli(p_i)，i＝1，…，n，对参数为θ的函数Pr(Y_i＝1|X_i＝x)＝h_θ(x)，似然函数根据最大对数似然函数准则，定义逻辑回归函数为：其中，是v_p中的每一个部分的回归函数；公式log(x)＝(log(x₁)，…，log(x_n))^T对<·，·>表示了内积；Θ是大小为d×d相关的回归矩阵；1表示了N×1矩阵，采用ξ||Θ||²作为逻辑回归中避免过拟合的正则化项；步骤4.4：为了最小化J(Θ)，提供一个标准的梯度下降算法；学习率为r的更新公式为：更新公式会在Θt+1和Θt之间的差异||Θt+1‑Θt||2小于一个经验常数时到达收敛，然后可得到回归矩阵Θ，再通过公式(24)的嵌入，如最近整数函数；步骤4.5：上述方法给出一个样本，可通过热核函数，先计算出每一个特征的相关核矩阵其中是N×1矩阵，然后通过优化权重α融合这些核：和通过线性映射矩阵P＝(U^TU)^‑1U^T获得低维实数表示，由于h_Θ是sigmoid函数，最终新的样本的哈希码被计算得出：其中，函数是对h_Θ每一个值取最近整数；事实上，门限值为0.5，它有属性h_Θ∈(0,1)去二进制化如果h_Θ(P·K^new)的输出比特比0.5大，标这个比特为1，否则为0，这种情况下，可得到对任意数据点的最终多特征联合哈希码；步骤4.6：上述是一种嵌入方法，所有的训练样本和测试样本都是经过多特征RKNMF优化和逻辑回归去确保它们在同一个子空间，不需要再训练，相关的MAH在下面的过程中描述：多特征联合哈希检索方法(MAH),输入：通过热核计算从n个不同的特征得到的一组训练核矩阵：{K1，…，Kn}；哈希码的目标维度d；逻辑回归的学习率r和正则化参数{γ,η,ξ}；输出：核权重α＝(α1，…，αn)基矩阵U和回归矩阵Θ；一是通过公式(4)对每一个特征计算相似矩阵W(i)；二是初始化α＝(1/n,1/n,…,1/n)；三是重复；四是通过公式(12)和公式(13)计算基矩阵U和低维矩阵表示V；五是通过公式(21)获取核权重六是直到收敛；七是通过公式(23)计算回归矩阵Θ，最终的对一个样本的MAH编码在公式(24)中定义；步骤5复杂度分析：对上述步骤1‑4的多特征联合哈希信息检索方法进行复杂度分析，其具体步骤如下：MAH学习的复杂度主要包含两个部分：第一部分是热核的构建和对不同特征的相似概率的正则化，如K_i和L_i；从步骤3.1可得，该部分的时间复杂度为第二部分是交替优化，在更新(U,V)的步骤，矩阵分解的时间复杂度为α的更新在MAH中的复杂度为所以，MAH的时间复杂度为其中T为交替优化的迭代次数；从经验分析得出，T会比10小，也就是MAH会在10个循环内收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京信息工程大学，未经南京信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410598595.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多特征联合哈希信息检索方法有效

专利文献下载