[发明专利]基于语义共享的深度跨模态检索方法及系统在审

申请号：	202111381465.2	申请日：	2021-11-21
公开（公告）号：	CN114186080A	公开（公告）日：	2022-03-15
发明（设计）人：	杨杨;张初兵;肖亮;杨健	申请（专利权）人：	南京理工大学
主分类号：	G06F16/43	分类号：	G06F16/43;G06F16/45;G06N3/04;G06N3/08
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义共享深度跨模态检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于语义共享的深度跨模态检索方法及系统，属于多模态学习领域，该方法包括如下步骤：提取图片和文本的细粒度特征；使用共享模型学习多模态一致性表示；通过掩码预测和分类预测优化模型；基于模型进行跨模态检索。本发明采用深度自注意力网络作为基本模型，对多模态数据分别提取细粒度特征并使用共享模型在同一语义空间中学习不同模态数据的一致性表示，解决了以往跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题，通过标签预测和掩码预测多任务损失函数对共享深度自注意力网络模型进行参数学习，有效地提升了跨模态检索的精度。

技术领域

本发明属于多模态学习领域，特别涉及一种基于语义共享的深度跨模态检索方法及系统。

背景技术

随着多媒体数据的快速增长，单一模态的检索难以满足当下的数据分析需求，相关跨模态检索算法应运而生。现阶段的跨模态检索聚焦于拟合文本和图片间的关联，主要挑战在于如何度量数据间的内容相似性。传统的跨模态检索算法通常使用多模态数据的全局特征或者局部特征进行相似性计算并使用模态间的一致性损失进行特征约束。经研究发现，现有的跨模态检索算法问题主要为：使用模态间的一致性损失进行特征约束导致了弱模态对强模态的干扰问题，造成检索准确度难以进一步提升。

目前在跨模态检索任务中，对于样本的使用关注点从利用样本的全局信息转变到局部信息，在一定程度上提高了模型的性能，但是并未解决模态一致性损失的干扰问题。

发明内容

本发明为解决传统跨模态检索任务中一致性损失函数对模型的干扰问题，提出了一种基于语义共享的深度跨模态检索方法及系统，使用共享模型在同一语义空间中学习多模态一致性表示代替一致性损失，有效地提升了跨模态检索的精度。

本发明采用的技术方案如下：一种基于语义共享的深度跨模态检索方法，包括如下步骤：

步骤1，提取图片和文本的细粒度特征；

步骤2，使用共享模型学习多模态一致性表示；

步骤3，通过掩码预测和分类预测优化模型；

步骤4，基于模型进行跨模态检索。

进一步的，所述步骤1中，提取图片和文本的细粒度特征表示包括以下步骤：

对于文本使用双向门控循环神经网络对单词进行编码，并记录单词位置信息。

对于图片使用提取区域特征的卷积神经网络提取细粒度编码，并根据区域位置计算位置信息。

对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入，以图片为例，公式如下所示：