[发明专利]基于渐进式融合的多视图跨模态匹配方法在审
申请号: | 202210365186.5 | 申请日: | 2022-04-08 |
公开(公告)号: | CN114863231A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 吴春雷;吴杰;王雷全;张立强;路静 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/74;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 渐进 融合 视图 跨模态 匹配 方法 | ||
本发明公开了基于渐进式融合的多视图跨模态匹配方法。该任务被广泛应用于视觉与语言的交互。以往的方法大多从单一视角出发,探索图像与文本之间的跨模态关系。然而,图像‑文本对之间只有单一的跨模态特征,很难发现丰富的信息。本发明提出了一种基于渐进式融合的多视图方法来集成多视图模态间表示。与单视图方法相比,多视图策略提供了更多的互补和全局语义线索。特别地,构建了多视图跨模态表示网络,生成多个跨模态表示,提供了不同的视图来发现潜在的图像‑文本关系。此外,采用渐进式融合模块,逐步融合多模态特征,充分利用了不同视角之间的内在互补性。在Flickr30K和MSCOCO上的大量实验验证了我们方法的优越性。
技术领域
本发明属于跨模态匹配的方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
跨模态匹配的目的是自动匹配与给定图像内容相关的句子或与给定图像内容相关的图像。它在实际应用中有着广泛的应用,如跨模态检索、视觉问答和图像字幕等,也因此成为近年来的研究热点。而实现该任务的关键在于对视觉和文本特征的理解学习和两种模态数据之间的语义对应关系。
近年来,跨模态匹配性能有了很大的提高,这主要归功于三点。首先,更好的图像和句子表示是提高跨模态匹配性能的核心。图像的特征编码器从VGG到ResNet再到最近的自底向上的特征,明显提高了跨模态匹配的性能。在自然语言处理方面,将Bi-GRU模型替换为BERT模型学习词嵌入;其次,各种变体的注意力机制能够自适应地选择重要特征,抑制不重要特征,有助于模型获得更好的增强特征;第三,为了更好地捕捉视觉和语言特征之间的潜在关系,提出了更好的交叉模态优化方法,如SCAN、CAMP和unicode-vl。
尽管跨模态匹配已经被广泛地研究,但现有的方法大多集中于学习图像或文本特征中的模态内关系。例如,视觉语义推理网络通过捕捉对象及其语义关系来推理视觉的语义表示。黄等人提出学习语义概念,并将其按照正确的语义顺序组织起来,以改善图像的表示。刘等人利用图卷积网络的局部和全局模型来捕获图的一般信息,并将图像级和向量级特征相结合来计算图像文本对的相似度。以及在最近提出的自然语言处理BERT算法中,利用自注意机制对区域单词关系进行建模,学习词嵌入。段等人提出了一种通用编码器,旨在利用预训练模型来学习视觉和语言的联合表征。
另一方面,跨媒体匹配的核心是学习跨模态关系。王等人提供了一种根据上下文调整注意的方法,并使用多模态LSTM顺序聚合局部相似度。丁等人提出了一种基于循环注意记忆的迭代匹配方法,通过多步对齐来捕获图像与文本之间的对应关系。刘等人构建图像与文本的图结构,学习细粒度的短语对应关系。Lee等人通过将每个单词与所有具有不同权重的区域相关联来发现潜在对齐,反之亦然。此外,也陆续提出了一些关于生成对抗网络的方法,闻等人在公共表示子空间上设计了两个鉴别器,整合了图像和文本模式之间的模态级和类级语义关系。王等人通过构建概念相关图来学习共识感知的概念表示,开发了一种用于图像-文本匹配的共识感知架构。
尽管这些工作成功地学习了图像-文本匹配的多级一致性,但它们忽略了在跨模态表示中不同视图之间的潜在依赖性。与此相反,我们构建了一个多视图的跨模态表示网络来生成多个跨模态表示,提供了不同的视图来发现潜在的图像-文本关系。本发明提出了一种渐进融合模块,该模块可集成多模态特征,自适应学习相似度特征,而不是用余弦度量相似度,充分利用了不同视角之间的内在互补性。
发明内容
本发明的目的是为了解决在以往的跨模态匹配方法中,大多从单一视角出发,只学习了不同模态间的单一特征关系,而没有考虑多视图的跨模态语义关系的问题。
本发明为解决上述技术问题采取的技术方案是:
S1.构建多视图跨模态表示生成模块,从不同的视图来挖掘潜在的模态间关系特征,通过考虑图像文本对间的多视图的信息交互,推理潜在的跨模态语义对齐。
S2.构建渐进式融合模块,以渐进的方式聚合多视图表示,可以有效地捕获不同视角下的内在关联和丰富的互补信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210365186.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种射频电源驱动方法及相关设备
- 下一篇:一种新型基层摊铺高程控制装置