[发明专利]基于双视域语义推理网络的图像文匹配方法在审
申请号: | 202010012176.4 | 申请日: | 2020-01-07 |
公开(公告)号: | CN111242197A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 吴春雷;吴杰;王雷全;路静;段海龙 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视域 语义 推理 网络 图像 匹配 方法 | ||
本发明公开了基于双视域语义推理网络的图像文本匹配任务,它是计算机视觉领域的一个重要研究课题。现有的方法大多集中于简单地聚合所有可能的区域和词对的相似性,更多地关注更重要的词或区域。但是,如果只关注区域和词对之间的相似性,就会扭曲图像本身所表达的中心意义,从而缺乏全局语义概念。为了解决这一问题,本发明首次提出了基于双视域语义推理的网络用于图像文本匹配,该网络将全局语义匹配和局部语义匹配结合在一个整体的深度框架中,以实现更有效的匹配。从局部视域出发,设计区域增强模块生成高亮显示图像区域的空间地图,为发现每个区域语义相似的词和每个词语义相似的词提供丰富的信息。从全局视域出发,使用Bi‑GRU来推断图像的全局语义信息,并将其与句子进行匹配。本发明在MSCOCO和Flicr30K数据集上进行的大量实验表明了该方法的有效性。
技术领域
本发明属于图像文本匹配方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
图像文本匹配是许多实际应用中一个重要的视觉语言交叉模态任务。准确的说,它是对于给定的文本查询出最相关的图片,对于给定的图像查询出最相关的句子。但是由于视觉语义的巨大差异,想要在一个公共空间中精确地表示来自不同模态的数据仍然是一个具有挑战性的问题。一系列丰富的研究探索了如何学习一个将图像特征向量和句子特征向量直接比较的联合空间。针对图像-文本匹配提出的许多方法,可分为基于全局语义匹配方法和局部语义匹配方法。
全局语义匹配方法是学习图像与文本之间的对应关系。一般的方法是通过将图像和文本映射到一个公共空间并优化它们的相关性来估计它们是否匹配。Kiros等人首先尝试使用CNN和LSTM分别对图像和文本进行编码,并采用双向的排名损失来学习嵌入空间。Zheng等人提供了一个双重CNN模型有区别地嵌入图像和文本。Karpathy等人提出一个三元组排名损失来使相关的图像文字对之间的距离尽可能的小而不相关的图像文字对之间的距离尽可能的大。Huang等人对排序损失函数增加了硬否定,进一步提高了匹配结果。Zhang等人设计了一种跨模态投影分类损失模型和跨模态投影匹配损失模型来学习图像和文本的嵌入。虽然这些工作都取得了良好的效果,但缺乏对图像和文本的局部细粒度分析。
局部语义匹配方法通过将视觉区域与文本词对齐进而推断图像和句子的相似度。Karpathy等人通过计算所有区域-词对的相似性来推断图像-文本匹配。Wu等人提出通过测量双向相对语义相似度来学习图文对齐。但是,简单地通过聚集所有可能的区域和单词对的相似性不能推断出全部潜在的视觉语义关系。近年来,随着注意力机制的兴起,许多研究者开始将注意力应用到图像文本匹配中。这种注意机制的优点是可以有选择地集中注意区域或单词,并获得关于它们的详细信息。Nam等人引入了一个双重注意网络来捕捉区域和单词之间的精细交互。Wang等人提供了一种根据上下文调整注意力的方法,可以有选择地强调图像和句子中的一对实例。Lee等人设计了叠加交叉注意,通过密切关注区域相关词或词相关区域来推断图像与文本的匹配,使得局部语义匹配有更好的解释。然而,仅通过计算区域与词语之间的相似度来推断图像与文本的匹配会扭曲图像所表达的主旨意思,从而导致语义错位。
不同于现有的方法,我们的模型(DVSI)通过测量图像中每个区域与其他区域之间的关系来增加相似区域的权重,从而生成一个突出显示图像区域的空间地图。然后,对所有的区域词对进行局部相似度计算。本文增加了全局匹配网络,通过对图像区域特征的推理过滤无关信息,得到具有中心意义的图像特征。然后计算文本与主题图像的全局相似度。最后,融合两部分的图文相似度进行图像文本匹配。
发明内容
本发明的目的是为了解决在基于堆叠注意力机制的图像文本匹配方法中,只通过关注更重要的单词或区域来聚合所有区域-单词对的相似性,而扭曲了图片真正表达的主要含义,从而缺乏全局语义概念的问题。
本发明为解决上述技术问题采取的技术方案是:
S1.从全局视域,构建全局语义推理匹配网络。
S2.构建区域增强模块,形成高亮显示图像区域的空间地图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010012176.4/2.html,转载请声明来源钻瓜专利网。