[发明专利]基于语义共享的深度跨模态检索方法及系统在审
申请号: | 202111381465.2 | 申请日: | 2021-11-21 |
公开(公告)号: | CN114186080A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 杨杨;张初兵;肖亮;杨健 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/45;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 共享 深度 跨模态 检索 方法 系统 | ||
本发明公开了一种基于语义共享的深度跨模态检索方法及系统,属于多模态学习领域,该方法包括如下步骤:提取图片和文本的细粒度特征;使用共享模型学习多模态一致性表示;通过掩码预测和分类预测优化模型;基于模型进行跨模态检索。本发明采用深度自注意力网络作为基本模型,对多模态数据分别提取细粒度特征并使用共享模型在同一语义空间中学习不同模态数据的一致性表示,解决了以往跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题,通过标签预测和掩码预测多任务损失函数对共享深度自注意力网络模型进行参数学习,有效地提升了跨模态检索的精度。
技术领域
本发明属于多模态学习领域,特别涉及一种基于语义共享的深度跨模态检索方法及系统。
背景技术
随着多媒体数据的快速增长,单一模态的检索难以满足当下的数据分析需求,相关跨模态检索算法应运而生。现阶段的跨模态检索聚焦于拟合文本和图片间的关联,主要挑战在于如何度量数据间的内容相似性。传统的跨模态检索算法通常使用多模态数据的全局特征或者局部特征进行相似性计算并使用模态间的一致性损失进行特征约束。经研究发现,现有的跨模态检索算法问题主要为:使用模态间的一致性损失进行特征约束导致了弱模态对强模态的干扰问题,造成检索准确度难以进一步提升。
目前在跨模态检索任务中,对于样本的使用关注点从利用样本的全局信息转变到局部信息,在一定程度上提高了模型的性能,但是并未解决模态一致性损失的干扰问题。
发明内容
本发明为解决传统跨模态检索任务中一致性损失函数对模型的干扰问题,提出了一种基于语义共享的深度跨模态检索方法及系统,使用共享模型在同一语义空间中学习多模态一致性表示代替一致性损失,有效地提升了跨模态检索的精度。
本发明采用的技术方案如下:一种基于语义共享的深度跨模态检索方法,包括如下步骤:
步骤1,提取图片和文本的细粒度特征;
步骤2,使用共享模型学习多模态一致性表示;
步骤3,通过掩码预测和分类预测优化模型;
步骤4,基于模型进行跨模态检索。
进一步的,所述步骤1中,提取图片和文本的细粒度特征表示包括以下步骤:
对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息。
对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息。
对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,以图片为例,公式如下所示:
式中以及分别表示输入图片的原始区域特征以及位置特征,ψ1,ψ2表示为全连接函数,φ为非线性映射函数,得到共享模型最终的输入。
进一步的,所述步骤2中,在模型中使用共享模型学习多模态一致性表示包括以下步骤:
使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
其中为样本i的文本或图片细粒度特征集合,作为共享模型的输入,zi为习得的图片或文本的多模态一致性表示。
进一步的,所述步骤3中,在模型中通过掩码预测和分类预测优化模型包括以下步骤:
①使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111381465.2/2.html,转载请声明来源钻瓜专利网。