[发明专利]一种基于实例遮掩的文本与图像互检索方法有效
申请号: | 202110578944.7 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113239153B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 袁春;吴航昊 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/58;G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 方艳平 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实例 遮掩 文本 图像 检索 方法 | ||
一种基于实例遮掩的文本与图像互检索方法,包括:输入由文本与图像构成的样本对;将图像和文本分别进行预处理以形成初始的图像特征向量序列和初始的词向量序列,将初始的图像特征向量序列同时输入到图像编码器和图像遮掩器,图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列并输入到图像编码器,以将图像嵌入到视觉语义空间;将初始的词向量序列同时输入到文本编码器和文本遮掩器,文本遮掩器根据初始的词向量序列构造遮掩的词向量序列并输入到文本编码器,以将文本嵌入到视觉语义空间;在视觉语义空间中度量向量间的相似度,以返回与查询样本相似度从高到低的序列。本发明解决了尾部类别样本量不足和实例的类别耦合过紧的问题。
技术领域
本发明涉及深度学习技术领域,尤其设计一种基于实例遮掩的文本与图像互检索方法。
背景技术
现有的文本与图像的互检索通常是根据样本之间的相似度来确定,例如,在搜索引擎中可以输入一句描述图像内容的文本,搜索引擎就能按语义符合的程度从高到低排列的图像返回给用户。
为了让神经网络模型提取到优质的图像视觉语义特征,现有方法一般均对图像进行实例检测,得到图中各个实例的包围框,再通过卷积神经网络(如Resnet101)将包围框内的部分映射成一个表示该实例的视觉语义的特征向量。因此,每一张图片都能用这种方法转化成一个实例特征向量序列,序列中特征向量的个数对应图中实例的个数。
Kuang-Huei Lee等人最先使用以上做法,提出了SCAN(Stacked CrossAttention,堆叠交叉注意力)。SCAN在上述基础上,用注意力机制刻画图中各个实例与文本中各个单词之间的注意力权重。具体而言,对某个图像实例来说,文本中各个单词的注意力权重越高则与该图像实例越相关。同样地,对某个单词来说,图像中各个实例的注意力权重越高则与该单词越相关。
SCAN提出后,学者们又陆续提出了BFAN(Bidirectional Focal AttentionNetwork,双向聚焦注意力网络),PFAN(Position Focused Attention Network,定位聚焦注意力网络),IMRAM(Iterative Matching with Recurrent Attention Memory,循环注意力记忆的迭代匹配)等工作,以改进注意力机制的应用方式。BFAN对跨模态的注意力机制作出了细化,使得模型更专注于重要的实例,忽略相关性小的实例。PFAN认为,实例出现在在图像中的相对位置与文本描述的语义非常相关,因此引入注意力机制对图像实例在图像中的相对位置进行建模。IMRAM将图像特征提取分解成两个模块,一个模块负责用注意力机制进行跨模态的语义对齐,另一个模块则负责推理全局的视觉语义。这两个模块循环交替地进行多步,从而推理出复杂且精细的全局语义。
另一种推理全局语义的思路是先将样本表示成图(Graph)结构,并让模型在图上进行推理的学习。VSRN(Visual Semantic Reasoning Network,视觉语义推理网络)将图像中的实例对象组织成一张完全图,并使用图卷积网络(GCN)提取特征,再应用门控(Gate)和记忆力(Memory)机制对图像的全局语义进行推理。DSRAN(Dual Semantic RelationshipAttention Network,对偶语义关系注意力网络)不仅将图像中的实例对象组织成图,也将图像全局特征以网格划分的形式组织成图,以共同进行复杂语义的推理。
申请人发现上述方法中都会受到实例组合的长尾分布问题的困扰,而且还会存在实例类别耦合过紧的问题。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
为解决长尾分布尾部类别样本量不足和实例的类别耦合过紧的问题,本发明提出一种基于实例遮掩的文本与图像互检索方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110578944.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有干燥防潮功能的消防巡检柜
- 下一篇:一种土体内部侵蚀变形响应模拟方法