[发明专利]一种用于数据处理的跨模态检索方法及系统在审
申请号: | 202111128176.1 | 申请日: | 2021-09-26 |
公开(公告)号: | CN114048295A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 冯爱民;王鸿飞;刘学军 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/532;G06F16/58;G06N3/04 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 苏一帜 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 数据处理 跨模态 检索 方法 系统 | ||
1.一种用于数据处理的跨模态检索方法,其特征在于,包括:
S1、将待处理的样本数据,输入模态特定的预处理模块并进行特征提取,并得到特征向量信息,其中,所述待处理的样本数据包括由图像数据和文本数据组成的样本对,所得到的特征向量信息包括:图像特征向量和文本特征向量;
S2、将所得到的特征向量信息,通过模态特定的子网络映射到公共子空间,其中,基于所述公共子空间对应得到跨模态信息聚合约束;
S3、将所述公共子空间中的公共表示,通过第一网络映射语义子空间,其中,语义子空间中的向量表示和样本标签之间建立潜在关联,并且所述潜在关联对应语义约束;
S4、将所述公共子空间中的公共表示,通过第二网络构建模态判别器,利用所构建的模态判别器区分每个公共表示的原始模态。
2.根据权利要求1所述的方法,其特征在于,在步骤S4之后,还包括:
当接收到终端设备发出的查询项之后,将所述查询项转换成公共表示;
查询数据库中存储的模态结果,并得到与转换的公共表示最相似的且来自另一个模态的公共表示;
向所述终端设备反馈查询结果。
3.根据权利要求1所述的方法,其特征在于,在步骤S1中包括:
通过VGG-19网络对图像数据进行特征提取,其中,获取fc7层中输出的4096维向量作为所述第二模型中的图像子网络的输入;
通过词袋模型(BoW)对文本数据进行处理,并生成高维度的文本特征向量作为所述第二模型中的文本子网络的输入。
4.根据权利要求1所述的方法,其特征在于,在步骤S2中包括:
将所得到的图像特征向量和文本特征向量,经过各自的模态特定的子网络,非线性的映射到所述公共子空间,其中,图像子网络和文本子网络分别由三层全连接神经网络构成,在映射过程中所利用的检索损失模型,由三个子项组成。
5.根据权利要求4所述的方法,其特征在于,还包括:
以三元组中心损失构建第一个子项,其中,三元组为其中tq是一个文本查询项,为正类中心且与文本查询项tq标签类别相同,为负类中心且与文本查询项tq标签类别不相同;
三元组中心损失为:其中,N1表示三元组的总数量,m1表示一个可调节的阈值,i1、i2和i3分别表示不同的类中心;
四元组中心损失构建第二个子项,其中,四元组为是与不同的负类中心,四元组中心损失为:其中,N2表示四元组的总数量,m2是另一个可调节的阈值;
利用三元组中心损失和四元组中心损失,建立全局层面上的约束:其中,σI和σT分别是图像子网络和文本子网络的权值参数。
6.根据权利要求5所述的方法,其特征在于,还包括:
构建第三个子项:其中,E是一个指示器矩阵,ij表示第j个图像样本和tk分别表示第k个文本样本,j、k分别表示正整数,Ejk用于表示ij和tk的类别是否相同,若相同则Ejk=1,否则Ejk=0;
根据所述全局层面上的约束好所述第三个子项,构建完整的检索损失:其中,γ是超参数。
7.根据权利要求1所述的方法,其特征在于,在步骤S3中,所述第一网络由一层全连接神经网络构成,其中的语义约束为:其中,σs表示所述第一网络的网络参数,表示语义子空间中的向量表示,do代表训练数据集中样本的类别数量,Rdo代表do维度的的向量空间,表示表示对应样本的标签向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111128176.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种回流燃烧室机匣头部结构
- 下一篇:一种能改善口腔舒适性和吸味的烟支