[发明专利]一种基于自学习的跨模态哈希检索方法有效

专利信息
申请号: 201910180371.5 申请日: 2019-03-11
公开(公告)号: CN111461157B 公开(公告)日: 2022-11-18
发明(设计)人: 陈志奎;钟芳明;杜佳宁;仇希如 申请(专利权)人: 大连理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/48;G06F16/40;G06V10/764;G06V10/74;G06V10/774;G06V20/70;G06V10/82;G06V30/19
代理公司: 大连理工大学专利中心 21200 代理人: 李晓亮;潘迅
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 自学习 跨模态哈希 检索 方法
【权利要求书】:

1.一种基于自学习的跨模态哈希检索方法,其特征在于,所述的跨模态哈希检索方法包括以下步骤:

步骤1、学习潜在语义特征;

采用共矩阵分解技术学习异构数据的公共语义特征;假定训练集是具有两种模态的n个实例,其中si表示第i个实例,n表示所有实例的数量;对于第i(i=1,...,n)个实例si={xi,yi},xi表示d1维的图像特征向量,yi表示d2维的文本特征向量,d1和d2分别表示图像特征向量和文本特征向量的维度,通常d1≠d2;这里将图像模态的训练特征表示为文本模态的训练特征为其中表示实数集;针对训练特征X和Y,将它们联合分解如公式(1)所示,并将该公式定义为O1

其中,矩阵和分别代表图像模态和文本模态的分解因子,其中k是潜在因子的数量,同时也表示哈希码长度;代表两个模态的公共潜在语义表示;权衡参数α用于衡量图像模态和文本模态的重要性;

步骤2、二值编码过程;

对学习到的公共语义空间执行正交变换,获得具有最小语义损失的二进制码;给定潜在公共潜在语义表示V,二值编码过程通过优化如下公式(2):

其中,表示原始数据的哈希码矩阵;代表正交变换矩阵,它建立公共语义特征和二进制哈希码间的关系,平衡公共语义潜在表示V中不同维度数据的方差,使得相同类别但具有不相关空间特征的数据被编码成相似的二进制码,并且相应地最小化语义量化损失;Ik代表k阶单位矩阵;将公式定义为O2,用来表示二值编码过程;

步骤3、图正则化嵌入;

为了使学习到的二进制码更有辨别性,引入原始数据的局部结构和标签信息,考虑在二进制码的生成和哈希函数的学习过程中同时保持模态内和模态间的相似性;

1)模态内相似性

模态内相似性通过局部几何结构来度量,首先捕捉每个模态的近邻关系,然后构建p近邻模型,选取前p项作为最相近的样本,其中p表示选取最近邻样本的数量;

图像模态的相似性矩阵被构建,且该相似性矩阵的元素定义如下:

其中,xi为图像模态的第i个训练特征,xj为图像模态的第j个训练特征;Np(·)代表p近邻集合,p的取值设置为[5,10];

与此类似,构建文本模态的相似性矩阵并定义该相似性矩阵的元素为:

其中,yi为文本模态的第i个训练特征,yj为文本模态的第j个训练特征;Np(·)代表p近邻集合,p的取值设置为[5,10];

2)模态间相似性

模态间的相似性通过标签信息度量;给定训练数据的标签矩阵c表示类别总数;文本模态与图像模态之间的相似性度量如公式(5)所示;

其中,xi为图像模态的第i个训练特征,yj为文本模态的第j个训练特征;

为了在公共潜在语义空间中保持两种模态间的标签一致性,同时又保持每个模态内的相似性,构建图正则化嵌入项,并将该项用符号O3表示,定义如公式(6)所示;

其中,矩阵由第i行第j列的元素wij组成,元素表示模态t(t=1表示图像模态,t=2表示文本模态)的模态内相似性矩阵的元素;是对角矩阵,其对角元素值dii是矩阵W的列和(或行和),即dii=∑jwij;L=D-W被称为图拉普拉斯矩阵;表示原始数据的哈希码矩阵;向量指矩阵BT的第i列,表示第i个训练实例的哈希码,而指矩阵BT的第j列,表示第j个训练实例的哈希码,其中i,j∈[1,n];

步骤4、计算和优化目标函数;

通过整合公式(1)中的语义子空间项O1,公式(2)的二值编码项O2和公式(6)中的图正则化嵌入项O3,以及一个正则化项,共同组成总目标函数,将其表示为O(U1,U2,V,B,Q),如公式(7)所示;

其中,α,μ,γ,λ表示相应项的权衡参数;具体地,参数α用于衡量图像模态和文本模态的重要性,参数μ用来均衡二值量化项对目标函数的影响程度,参数γ表示图正则化项对目标函数的贡献程度,参数λ表示正则化项R(U1,U2,V,B)对本目标函数的贡献程度;此外,R(U1,U2,V,B)是一个正则化项,用来避免过拟合问题,其中R(·)被定义为因此公式(7)中的正则化项被表示为

该目标函数的优化求解问题通过迭代地遵循以下列出的四个步骤来解决,直到满足收敛条件,进一步得到最终的哈希码矩阵B,并将其作为检索数据库,用于下一步骤的计算;优化目标函数的步骤如下:

1)更新两个模态的分解因子Ut(t=1,2),其中t表示模态t(t=1为图像模态,t=2为文本模态);固定V,B,Q,令O是目标函数O(U1,U2,V,B,Q)的简写表述;通过计算得到:

其中,Ik代表k阶单位矩阵;

2)更新B;固定Ut(t=1,2),V,Q,令通过计算得到:

B=2β(2(β+λ)In+γ(L+LT))-1VQ (9)

其中,In代表n阶单位矩阵,代表图拉普拉斯矩阵;

3)更新V;固定Ut(t=1,2),B,Q,令通过计算得到:

V=(αXTU1+(1-α)YTU2+βBQT)(αU1TU1+(1-α)U2TU2+(β+λ)Ik)-1 (10)

4)更新Q;固定Ut(t=1,2),V,B,令这里的优化是经典的正交普鲁克斯特问题,采取奇异值分解SVD的方法解决;首先计算矩阵BT和V的乘积,并通过奇异值分解方法将乘积结果BTV分解为M1AM2T,之后通过公式(11)获得矩阵Q:

Q=M2M1T (11)

其中,和表示正交矩阵,矩阵A为对角矩阵,被定义为A=diag(σ12,...,σq),diag(σ12,...,σq)表示矩阵的对角线元素为σ12,...,σq,σr(i=1,2,..,q)为矩阵BTV的非零奇异值;

5)收敛性判断;通过比较连续两次目标函数O的值是否满足如下公式(12)的收敛条件,O是目标函数O(U1,U2,V,B,Q)的简称;

err=|Ocur-Opre|≤ξ (12)

其中,err表示连续两次目标函数O的误差值,Ocur表示本次的目标函数值,Opre表示上一次的目标函数值,ξ表示给定的阈值;

如果满足收敛条件,则通过如下公式(13)输出最终的哈希码矩阵B;

B=sign(2β(2(β+λ)In+γ(L+LT))-1VQ) (13)

否则,如果不满足收敛条件,更新目标函数值为当前计算得到的目标函数值,并重新执行1)至5)迭代更新矩阵;

步骤5、学习哈希函数;

以一种自学框架完成哈希函数的学习,将哈希函数学习视为二分类问题,采用支持向量机方法为每个模态训练k个二分类模型,其中k为哈希码长度;具体地:

首先,将训练特征X和Y分别作为输入,将上一步骤学习到的哈希码bl作为标签,通过线性支持向量机训练k个二分类模型和其中bl代表矩阵B的第l列,表示图像模态的第l个二分类模型,表示文本模态的第l个二分类模型,且l=1,...,k;

其次,对于每个模态(图像和文本),将其对应的k个二分类模型或整合,则生成最终的哈希函数;因此,图像模态的哈希函数fx表示为类似地,文本模态的哈希函数fy表示为

因此,对于一个新查询的图像特征xz或文本特征yz,采用上述对应模态的哈希函数fx或fy,可以预测得到其k位哈希码hz,即hz=fx(xz)或hz=fy(yz),其中hz代表新查询为图像模态或文本模态的哈希码,fx(xz)表示计算图像特征xz的哈希函数,fy(yz)表示计算文本特征yz的哈希函数;最后,通过与数据库的哈希码码执行异或操作,能够获取与查询最相关的另一个模态的结果。

2.根据权利要求1所述的一种基于自学习的跨模态哈希检索方法,其特征在于,所述的公式(12)中的阈值ξ设为0.01。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910180371.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top