[发明专利]多特征联合哈希信息检索方法有效

专利信息
申请号: 201410598595.5 申请日: 2014-10-30
公开(公告)号: CN104462196B 公开(公告)日: 2019-01-22
发明(设计)人: 邵岭;蔡子贇;刘力;余孟洋 申请(专利权)人: 南京信息工程大学
主分类号: G06F16/903 分类号: G06F16/903
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 吴树山
地址: 215101 江苏省苏州市吴中区木*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种多特征联合哈希信息检索方法,其特征在于包括如下基本步骤:一是建立目标函数:保护目标空间的数据分布,同时得到NMF中的紧凑矩阵基并且减少冗余;二是交替优化:通过一个迭代的过程,优化U和V,得到基算子U和低维数据V的更新规则;三是整体收敛:通过原始的目标函数,然后进行交替迭代;四是哈希函数的生成:通过计算训练数据和测试样本之间的汉明距即XOR运算,得出最终的结果;五是复杂度分析:对上述步骤1‑4的方法进行复杂度分析。本发明能够有效地保护数据的概率分布,减少低维数据的冗余,使得学习到一个可融合从多个源中得到的多种表示,同时通过RKNMF来保护高维联合分布和获得正交基的哈希嵌入函数。
搜索关键词: 哈希 复杂度分析 目标函数 信息检索 冗余 低维 保护目标 测试样本 概率分布 更新规则 哈希函数 计算训练 交替迭代 紧凑矩阵 数据分布 整体收敛 算子 有效地 正交基 联合 迭代 高维 嵌入 优化 融合 学习
【主权项】:
1.一种多特征联合哈希信息检索方法,其特征在于包括如下基本步骤:步骤1建立目标函数:保护目标空间的数据分布,用热核公式构建相关的N×N的核矩阵,同时得到NMF中的紧凑矩阵基并且减少冗余;其具体步骤如下:步骤1.1:给出第i个特征训练数据用热核公式构建相关的N×N的核矩阵:其中τ是相关的可变参数,从每一个特征数据{K1,...,Kn}以计算出多核矩阵,步骤1.2:定义融合矩阵为其中为得到一个更加有意义的低维矩阵分解,为二进制码V=[v1,…,vN]设定一个约束作为相似概率正则化,可利用它保护目标空间的数据分布,其优化可表示如下:其中,是在第i个特征空间中之间的对称联合概率;采用高斯函数去衡量它:其中,σ是高斯平滑参数,可以估量欧几里德距离;步骤1.3:第i个特征的相似概率正则化可以被降低成:其中,Li=D(i)‑W(i)是对称相似矩阵,D(i)是输入为对角矩阵;为同时得到NMF中的紧凑矩阵基和减少冗余,希望NMF的基矩阵尽可能的正交,如UTU‑I=0,同时最小化||UTU‑I||2并且让U近似正交;步骤1.4:结合以上步骤1.3所述的tr(VLiVT)和||UTU‑I||2两个约束条件进行优化如下:其中,γ和η是两个可以平衡NMF的近似误差和附加约束的正系数;步骤2交替优化:通过一个迭代的过程,优化U和V,得到基算子U和低维数据V的更新规则;其具体步骤如下:步骤2.1:首先把公式(6)中不连续的V∈{0,1}d×N放到域上,为保持NMF去获得一个更优化的解,通过一个迭代的过程,优化(U,V)分为两步,其α在区间(α1,…,αn)之间,每一步的U、V和α都被不停的优化,并且下一步再次迭代,直到收敛迭代过程才停止;步骤2.2:优化U和V首先确定α,替换运用拉格朗日乘数函数:公式(7)中的Φ和Ψ是两个矩阵,为使U和V都大于等于0,其中所有的元素均为拉格朗日乘数,然后让的偏导数相对于U和V为0,如即可得:步骤2.3:运用KKT条件,有互补松弛性条件ΦijUij=0和ΨijVij=0,在公式(8)和(9)的相关元素乘上Uij和Vij,对Uij和Vij有以下的公式:(‑KVT+UVVT+2ηUUTU‑2ηU)ijUij=0  (10),(‑UTK+UTUV+γVL)ijVij=0  (11),于是,和标准的NMF过程类似,可得到更新规则如下:其中为确保U和V中的所有元素均为正值,U需要进行归一化,U和V都具有收敛性,已经证明了U和V的每一次更新,目标函数都单调不增加;步骤2.4:为确定U和V,忽略不相干的范数,定义拉格朗日函数如下:其中,λ和β=(β1,…,βn)是拉格朗日乘数,相对于α,λ和β的的偏导数,如需要:同时有互补松弛条件:βjαj=0,j=1,…,n.  (18),步骤2.5:对一些j而言,αj=0,尤其J={j|αj=0},优化的结果会包含一些0;在这种情况下,与最小化的优化过程不同;不失一般性,设αj>0,然后,β=0;从公式(15),可得:如果将以上的公式转化到矩阵中并且定义Tj=tr(UVKj)‑γtr(VLjVT)/2,可得:可用AαT=B表示公式(20),矩阵A实际上是Ki基于F内积的格拉姆矩阵步骤2.6:让M=(vec(K1),…,vec(Kn)),其中vec(Ki)是Ki的向量化,然后A=MTM,从n个不同的特征得出的核矩阵K1,...,Kn线性不相关的;结合公式(17)且消除λ,可得到以下线性公式:可用表示公式(21);根据不同特征的变化,1=(1,…,1)和A中所有行都是线性不相关的;然后有于是,的逆存在并且步骤3整体收敛:通过原始的目标函数,然后进行交替迭代;其具体步骤如下:步骤3.1:通过L(U,V,α)在公式(6)定义原始的目标函数,然后交替迭代过程可以表示为:于是,有下面的不等式:L(U(m‑1),V(m‑1),α(m‑1))≥L(U(m),V(m),α(m‑1))≥L(U(m),V(m),α(m))≥L(U(m+1),V(m+1),α(m))≥L(U(m+1),V(m+1),α(m+1))≥....即:m→∞时,L(U(m),V(m),α(m))是单调不增加的,有L(U,V,α)≥0,然后交替迭代收敛;步骤4哈希函数的生成:将得出的低维实数根据门限值的划分转换为二进制码,使用多变量的回归方法来准确地找到相关的哈希函数,计算训练数据和测试样本之间的汉明距即XOR运算,得出最终的结果;其具体步骤如下:步骤4.1:计算出权向量α=(α1,…,αn),融合核矩阵K和联合概率拉普拉斯矩阵L;于是,从公式(12)和公式(13)得到多特征RKNMF基和低维表示其中d<<Di,i=1,…,n,将以上的低维实数V=[v1,…,vN]表示且根据门限值的划分转换为二进制码,如果vp中的第l个元素比门限值大,那么否则为0,其中p=1,…,N和l=1,…,d;步骤4.2:为确保语义哈希的效率,一个好的语义哈希算法应该是熵最大化的;同时,从信息量的原则可知,通过一个均匀的概率分布,信源可以到达一个最大的熵;如果在数据上的码的熵很小,整个文件会被映射到一小部分的码上;为满足熵最大化原则,vp中元素的门限值采用vp的中值;因此,一半数值会被设为1,另外一半设为0,以将实数码计算成二进制码;步骤4.3:使用多变量的回归方法来准确地找到相关的哈希函数;在分布中Yi|Xi~Bernoulli(pi),i=1,…,n,对参数为θ的函数Pr(Yi=1|Xi=x)=hθ(x),似然函数根据最大对数似然函数准则,定义逻辑回归函数为:其中,是vp中的每一个部分的回归函数;公式log(x)=(log(x1),…,log(xn))T<·,·>表示了内积;Θ是大小为d×d相关的回归矩阵;1表示了N×1矩阵,采用ξ||Θ||2作为逻辑回归中避免过拟合的正则化项;步骤4.4:为了最小化J(Θ),提供一个标准的梯度下降算法;学习率为r的更新公式为:更新公式会在Θt+1和Θt之间的差异||Θt+1‑Θt||2小于一个经验常数时到达收敛,然后可得到回归矩阵Θ,再通过公式(24)的嵌入,如最近整数函数;步骤4.5:上述方法给出一个样本,可通过热核函数,先计算出每一个特征的相关核矩阵其中是N×1矩阵,然后通过优化权重α融合这些核:和通过线性映射矩阵P=(UTU)‑1UT获得低维实数表示,由于hΘ是sigmoid函数,最终新的样本的哈希码被计算得出:其中,函数是对hΘ每一个值取最近整数;事实上,门限值为0.5,它有属性hΘ∈(0,1)去二进制化如果hΘ(P·Knew)的输出比特比0.5大,标这个比特为1,否则为0,这种情况下,可得到对任意数据点的最终多特征联合哈希码;步骤4.6:上述是一种嵌入方法,所有的训练样本和测试样本都是经过多特征RKNMF优化和逻辑回归去确保它们在同一个子空间,不需要再训练,相关的MAH在下面的过程中描述:多特征联合哈希检索方法(MAH),输入:通过热核计算从n个不同的特征得到的一组训练核矩阵:{K1,…,Kn};哈希码的目标维度d;逻辑回归的学习率r和正则化参数{γ,η,ξ};输出:核权重α=(α1,…,αn)基矩阵U和回归矩阵Θ;一是通过公式(4)对每一个特征计算相似矩阵W(i);二是初始化α=(1/n,1/n,…,1/n);三是重复;四是通过公式(12)和公式(13)计算基矩阵U和低维矩阵表示V;五是通过公式(21)获取核权重六是直到收敛;七是通过公式(23)计算回归矩阵Θ,最终的对一个样本的MAH编码在公式(24)中定义;步骤5复杂度分析:对上述步骤1‑4的多特征联合哈希信息检索方法进行复杂度分析,其具体步骤如下:MAH学习的复杂度主要包含两个部分:第一部分是热核的构建和对不同特征的相似概率的正则化,如Ki和Li;从步骤3.1可得,该部分的时间复杂度为第二部分是交替优化,在更新(U,V)的步骤,矩阵分解的时间复杂度为α的更新在MAH中的复杂度为所以,MAH的时间复杂度为其中T为交替优化的迭代次数;从经验分析得出,T会比10小,也就是MAH会在10个循环内收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410598595.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top