[发明专利]一种基于自学习的跨模态哈希检索方法有效

申请号：	201910180371.5	申请日：	2019-03-11
公开（公告）号：	CN111461157B	公开（公告）日：	2022-11-18
发明（设计）人：	陈志奎;钟芳明;杜佳宁;仇希如	申请（专利权）人：	大连理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/48;G06F16/40;G06V10/764;G06V10/74;G06V10/774;G06V20/70;G06V10/82;G06V30/19
代理公司：	大连理工大学专利中心 21200	代理人：	李晓亮;潘迅
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自学习跨模态哈希检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自学习的跨模态哈希检索方法，其特征在于，所述的跨模态哈希检索方法包括以下步骤：

步骤1、学习潜在语义特征；

采用共矩阵分解技术学习异构数据的公共语义特征；假定训练集是具有两种模态的n个实例，其中s_i表示第i个实例，n表示所有实例的数量；对于第i(i＝1,...,n)个实例s_i＝{x_i,y_i}，x_i表示d₁维的图像特征向量，y_i表示d₂维的文本特征向量，d₁和d₂分别表示图像特征向量和文本特征向量的维度，通常d₁≠d₂；这里将图像模态的训练特征表示为文本模态的训练特征为其中表示实数集；针对训练特征X和Y，将它们联合分解如公式(1)所示，并将该公式定义为O₁：

其中，矩阵和分别代表图像模态和文本模态的分解因子，其中k是潜在因子的数量，同时也表示哈希码长度；代表两个模态的公共潜在语义表示；权衡参数α用于衡量图像模态和文本模态的重要性；

步骤2、二值编码过程；

对学习到的公共语义空间执行正交变换，获得具有最小语义损失的二进制码；给定潜在公共潜在语义表示V，二值编码过程通过优化如下公式(2)：

其中，表示原始数据的哈希码矩阵；代表正交变换矩阵，它建立公共语义特征和二进制哈希码间的关系，平衡公共语义潜在表示V中不同维度数据的方差，使得相同类别但具有不相关空间特征的数据被编码成相似的二进制码，并且相应地最小化语义量化损失；I_k代表k阶单位矩阵；将公式定义为O₂，用来表示二值编码过程；

步骤3、图正则化嵌入；

为了使学习到的二进制码更有辨别性，引入原始数据的局部结构和标签信息，考虑在二进制码的生成和哈希函数的学习过程中同时保持模态内和模态间的相似性；

1)模态内相似性

模态内相似性通过局部几何结构来度量，首先捕捉每个模态的近邻关系，然后构建p近邻模型，选取前p项作为最相近的样本，其中p表示选取最近邻样本的数量；

图像模态的相似性矩阵被构建，且该相似性矩阵的元素定义如下：

其中，x_i为图像模态的第i个训练特征，x_j为图像模态的第j个训练特征；N_p(·)代表p近邻集合，p的取值设置为[5,10]；

与此类似，构建文本模态的相似性矩阵并定义该相似性矩阵的元素为：

其中，y_i为文本模态的第i个训练特征，y_j为文本模态的第j个训练特征；N_p(·)代表p近邻集合，p的取值设置为[5,10]；

2)模态间相似性

模态间的相似性通过标签信息度量；给定训练数据的标签矩阵c表示类别总数；文本模态与图像模态之间的相似性度量如公式(5)所示；

其中，x_i为图像模态的第i个训练特征，y_j为文本模态的第j个训练特征；

为了在公共潜在语义空间中保持两种模态间的标签一致性，同时又保持每个模态内的相似性，构建图正则化嵌入项，并将该项用符号O₃表示，定义如公式(6)所示；

其中，矩阵由第i行第j列的元素w_ij组成，元素表示模态t(t＝1表示图像模态，t＝2表示文本模态)的模态内相似性矩阵的元素；是对角矩阵，其对角元素值d_ii是矩阵W的列和(或行和)，即d_ii＝∑_jw_ij；L＝D-W被称为图拉普拉斯矩阵；表示原始数据的哈希码矩阵；向量指矩阵B^T的第i列，表示第i个训练实例的哈希码，而指矩阵B^T的第j列，表示第j个训练实例的哈希码，其中i,j∈[1,n]；

步骤4、计算和优化目标函数；

通过整合公式(1)中的语义子空间项O₁，公式(2)的二值编码项O₂和公式(6)中的图正则化嵌入项O₃，以及一个正则化项，共同组成总目标函数，将其表示为O(U₁,U₂,V,B,Q)，如公式(7)所示；

其中，α,μ,γ,λ表示相应项的权衡参数；具体地，参数α用于衡量图像模态和文本模态的重要性，参数μ用来均衡二值量化项对目标函数的影响程度，参数γ表示图正则化项对目标函数的贡献程度，参数λ表示正则化项R(U₁,U₂,V,B)对本目标函数的贡献程度；此外，R(U₁,U₂,V,B)是一个正则化项，用来避免过拟合问题，其中R(·)被定义为因此公式(7)中的正则化项被表示为

该目标函数的优化求解问题通过迭代地遵循以下列出的四个步骤来解决，直到满足收敛条件，进一步得到最终的哈希码矩阵B，并将其作为检索数据库，用于下一步骤的计算；优化目标函数的步骤如下：

1)更新两个模态的分解因子U_t(t＝1,2)，其中t表示模态t(t＝1为图像模态，t＝2为文本模态)；固定V,B,Q，令O是目标函数O(U₁,U₂,V,B,Q)的简写表述；通过计算得到：

其中，I_k代表k阶单位矩阵；

2)更新B；固定U_t(t＝1,2),V,Q，令通过计算得到：

B＝2β(2(β+λ)I_n+γ(L+L^T))^-1VQ (9)

其中，I_n代表n阶单位矩阵，代表图拉普拉斯矩阵；

3)更新V；固定U_t(t＝1,2),B,Q，令通过计算得到：

V＝(αX^TU₁+(1-α)Y^TU₂+βBQ^T)(αU₁^TU₁+(1-α)U₂^TU₂+(β+λ)I_k)^-1 (10)

4)更新Q；固定U_t(t＝1,2),V,B，令这里的优化是经典的正交普鲁克斯特问题，采取奇异值分解SVD的方法解决；首先计算矩阵B^T和V的乘积，并通过奇异值分解方法将乘积结果B^TV分解为M₁AM₂^T，之后通过公式(11)获得矩阵Q：

Q＝M₂M₁^T (11)

其中，和表示正交矩阵，矩阵A为对角矩阵，被定义为A＝diag(σ₁,σ₂,...,σ_q)，diag(σ₁,σ₂,...,σ_q)表示矩阵的对角线元素为σ₁,σ₂,...,σ_q，σ_r(i＝1,2,..,q)为矩阵B^TV的非零奇异值；

5)收敛性判断；通过比较连续两次目标函数O的值是否满足如下公式(12)的收敛条件，O是目标函数O(U₁,U₂,V,B,Q)的简称；

err＝|O^cur-O^pre|≤ξ (12)

其中，err表示连续两次目标函数O的误差值，O^cur表示本次的目标函数值，O^pre表示上一次的目标函数值，ξ表示给定的阈值；

如果满足收敛条件，则通过如下公式(13)输出最终的哈希码矩阵B；

B＝sign(2β(2(β+λ)I_n+γ(L+L^T))^-1VQ) (13)

否则，如果不满足收敛条件，更新目标函数值为当前计算得到的目标函数值，并重新执行1)至5)迭代更新矩阵；

步骤5、学习哈希函数；

以一种自学框架完成哈希函数的学习，将哈希函数学习视为二分类问题，采用支持向量机方法为每个模态训练k个二分类模型，其中k为哈希码长度；具体地：

首先，将训练特征X和Y分别作为输入，将上一步骤学习到的哈希码b_l作为标签，通过线性支持向量机训练k个二分类模型和其中b_l代表矩阵B的第l列，表示图像模态的第l个二分类模型，表示文本模态的第l个二分类模型，且l＝1,...,k；

其次，对于每个模态(图像和文本)，将其对应的k个二分类模型或整合，则生成最终的哈希函数；因此，图像模态的哈希函数f_x表示为类似地，文本模态的哈希函数f_y表示为

因此，对于一个新查询的图像特征x_z或文本特征y_z，采用上述对应模态的哈希函数f_x或f_y，可以预测得到其k位哈希码h_z，即h_z＝f_x(x_z)或h_z＝f_y(y_z)，其中h_z代表新查询为图像模态或文本模态的哈希码，f_x(x_z)表示计算图像特征x_z的哈希函数，f_y(y_z)表示计算文本特征y_z的哈希函数；最后，通过与数据库的哈希码码执行异或操作，能够获取与查询最相关的另一个模态的结果。

2.根据权利要求1所述的一种基于自学习的跨模态哈希检索方法，其特征在于，所述的公式(12)中的阈值ξ设为0.01。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910180371.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自学习的跨模态哈希检索方法有效

专利文献下载