[发明专利]一种用于数据处理的跨模态检索方法及系统在审

申请号：	202111128176.1	申请日：	2021-09-26
公开（公告）号：	CN114048295A	公开（公告）日：	2022-02-15
发明（设计）人：	冯爱民;王鸿飞;刘学军	申请（专利权）人：	南京航空航天大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/532;G06F16/58;G06N3/04
代理公司：	江苏圣典律师事务所 32237	代理人：	苏一帜
地址：	211106 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于数据处理跨模态检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于数据处理的跨模态检索方法，其特征在于，包括：

S1、将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息，其中，所述待处理的样本数据包括由图像数据和文本数据组成的样本对，所得到的特征向量信息包括：图像特征向量和文本特征向量；

S2、将所得到的特征向量信息，通过模态特定的子网络映射到公共子空间，其中，基于所述公共子空间对应得到跨模态信息聚合约束；

S3、将所述公共子空间中的公共表示，通过第一网络映射语义子空间，其中，语义子空间中的向量表示和样本标签之间建立潜在关联，并且所述潜在关联对应语义约束；

S4、将所述公共子空间中的公共表示，通过第二网络构建模态判别器，利用所构建的模态判别器区分每个公共表示的原始模态。

2.根据权利要求1所述的方法，其特征在于，在步骤S4之后，还包括：

当接收到终端设备发出的查询项之后，将所述查询项转换成公共表示；

查询数据库中存储的模态结果，并得到与转换的公共表示最相似的且来自另一个模态的公共表示；

向所述终端设备反馈查询结果。

3.根据权利要求1所述的方法，其特征在于，在步骤S1中包括：

通过VGG-19网络对图像数据进行特征提取，其中，获取fc7层中输出的4096维向量作为所述第二模型中的图像子网络的输入；

通过词袋模型(BoW)对文本数据进行处理，并生成高维度的文本特征向量作为所述第二模型中的文本子网络的输入。

4.根据权利要求1所述的方法，其特征在于，在步骤S2中包括：

将所得到的图像特征向量和文本特征向量，经过各自的模态特定的子网络，非线性的映射到所述公共子空间，其中，图像子网络和文本子网络分别由三层全连接神经网络构成，在映射过程中所利用的检索损失模型，由三个子项组成。

5.根据权利要求4所述的方法，其特征在于，还包括：

以三元组中心损失构建第一个子项，其中，三元组为其中t_q是一个文本查询项，为正类中心且与文本查询项t_q标签类别相同，为负类中心且与文本查询项t_q标签类别不相同；

三元组中心损失为：其中，N₁表示三元组的总数量，m₁表示一个可调节的阈值，i₁、i₂和i₃分别表示不同的类中心；

四元组中心损失构建第二个子项，其中，四元组为是与不同的负类中心，四元组中心损失为：其中，N₂表示四元组的总数量，m₂是另一个可调节的阈值；

利用三元组中心损失和四元组中心损失，建立全局层面上的约束：其中，σ_I和σ_T分别是图像子网络和文本子网络的权值参数。

6.根据权利要求5所述的方法，其特征在于，还包括：

构建第三个子项：其中，E是一个指示器矩阵，i_j表示第j个图像样本和t_k分别表示第k个文本样本，j、k分别表示正整数，E_jk用于表示i_j和t_k的类别是否相同，若相同则E_jk＝1，否则E_jk＝0；

根据所述全局层面上的约束好所述第三个子项，构建完整的检索损失：其中，γ是超参数。

7.根据权利要求1所述的方法，其特征在于，在步骤S3中，所述第一网络由一层全连接神经网络构成，其中的语义约束为：其中，σ_s表示所述第一网络的网络参数，表示语义子空间中的向量表示，do代表训练数据集中样本的类别数量，R^do代表do维度的的向量空间，表示表示对应样本的标签向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111128176.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载