[发明专利]基于语义共享的深度跨模态检索方法及系统在审
申请号: | 202111381465.2 | 申请日: | 2021-11-21 |
公开(公告)号: | CN114186080A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 杨杨;张初兵;肖亮;杨健 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/45;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 共享 深度 跨模态 检索 方法 系统 | ||
1.一种基于语义共享的深度跨模态检索方法,其特征在于,包括如下步骤:
步骤1,提取图片和文本的细粒度特征;
步骤2,使用共享模型学习多模态一致性表示;
步骤3,通过掩码预测和分类预测优化模型;
步骤4,基于模型进行跨模态检索。
2.如权利要求1所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤1中,提取图片和文本的细粒度特征,具体为:
对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息;
对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息;
对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,公式如下所示:
式中以及分别表示输入图片的原始区域特征以及位置特征,ψ1,ψ2表示为全连接函数,φ为非线性映射函数,得到共享模型最终的输入。
3.如权利要求2所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤2中,在模型中使用共享模型学习多模态一致性表示,具体为:
使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
其中为样本i的文本或图片细粒度特征集合,作为共享模型的输入,zi为习得的图片或文本的多模态一致性表示。
4.如权利要求3所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,在模型中通过掩码预测和分类预测优化模型,包括以下步骤:
(1)使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
其中yi为样本标签,N为样本数量,g为分类器,分别为图片和文本的多模态一致性表示;
(2)对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为:
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,分别为图片和文本掩码的区域信息和单词信息,分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
(3)使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
5.如权利要求4所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,使用共享模型学习多模态一致性特征表示进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度,利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。
6.一种基于语义共享的深度跨模态检索系统,其特征在于,包括:
特征提取模块,用于提取图片和文本的细粒度特征;
多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
模型优化模块,用于通过掩码预测和分类预测优化模型;
跨模态检索模块,用于基于模型进行跨模态检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111381465.2/1.html,转载请声明来源钻瓜专利网。