[发明专利]一种基于实例遮掩的文本与图像互检索方法有效
申请号: | 202110578944.7 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113239153B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 袁春;吴航昊 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/58;G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 方艳平 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实例 遮掩 文本 图像 检索 方法 | ||
1.一种基于实例遮掩的文本与图像互检索方法,其特征在于,包括以下步骤:
输入由文本与图像构成的样本对;
将所述图像进行预处理形成包含至少一个图像实例的初始的图像特征向量序列,将初始的图像特征向量序列同时输入到图像编码器和图像遮掩器,所述图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列,并将遮掩的图像特征向量序列也输入到所述图像编码器,以将所述图像嵌入到视觉语义空间;
将所述文本进行预处理形成包含至少一个文本实例的初始的词向量序列,将初始的词向量序列同时输入到文本编码器和文本遮掩器,所述文本遮掩器根据初始的词向量序列构造遮掩的词向量序列,并将遮掩的词向量序列也输入到所述文本编码器,以将所述文本嵌入到所述视觉语义空间;
其中,每一个图像实例的遮掩方式都被转换到所述文本遮掩器,以使得所述图像遮掩器和所述文本遮掩器构造出语义平行的特征序列;并通过遮掩构造的特征序列将和原特征序列一同送入各自模态的编码器,以将所述图像和所述文本一同嵌入到所述视觉语义空间,使得所述图像和所述文本一同被嵌入到一个表述多模态视觉语义的公共向量空间中;
在所述视觉语义空间中度量图像特征向量序列中的图像特征向量与词向量序列中的词向量之间的相似度,以返回与查询样本相似度从高到低的序列。
2.根据权利要求1所述的文本与图像互检索方法,其特征在于,所述图像遮掩器在构造遮掩的图像特征向量序列之后,还将被遮掩的图像实例的类标签转换到所述文本遮掩器。
3.根据权利要求1所述的文本与图像互检索方法,其特征在于,还包括:采用实例遮掩损失函数对输入到所述文本编码器的遮掩的词向量序列和输入到所述图像编码器的遮掩的图像特征向量序列进行训练;采用样本损失函数对输入到所述文本编码器的初始的词向量序列和输入到所述图像编码器的初始的图像特征向量序列进行训练。
4.根据权利要求3所述的文本与图像互检索方法,其特征在于,所述实例遮掩损失函数lmsk(x,c)为:
其中,β是一个表示边界大小的超参数,M是构造出的新样本的数量,x表示图像,c表示文本,vi表示第i个通过图像特征向量序列v构造出的样本,ei表示第i个通过词向量序列e构造出的样本,分别表示vi、ei的负样本,S表示相似度函数,[X]+表示max(0,X)。
5.根据权利要求3所述的文本与图像互检索方法,其特征在于,所述样本损失函数lmh(x,c)为:
其中,α是一个表示边界大小的超参数,x表示图像,c表示文本,分别表示x、c的负样本,S表示相似度函数,[X]+表示max(0,X)。
6.根据权利要求1所述的文本与图像互检索方法,其特征在于,将所述图像进行预处理形成包含至少一个图像实例的初始的图像特征向量序列具体包括:将所述图像输入到一个经过预训练的图像实例检测器,采用Faster R-CNN检测所述图像中实例所在的区域,再使用ImageNet数据集预训练的ResNet101将边界框内的图像区域转换成图像特征向量序列,以形成包含至少一个图像实例的初始的图像特征向量序列。
7.根据权利要求1所述的文本与图像互检索方法,其特征在于,将所述文本进行预处理形成包含至少一个文本实例的初始的词向量序列具体包括:将所述文本转换成一个编号序列,再通过词嵌入的方式将每个词表示成词向量,以形成包含至少一个文本实例的初始的词向量序列。
8.根据权利要求1至7任一项所述的文本与图像互检索方法,其特征在于,所述图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列具体包括:所述图像遮掩器将初始的图像特征向量序列中需要进行遮掩的图像实例对应的图像特征向量的值设置为0以构造形成遮掩的图像特征向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110578944.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有干燥防潮功能的消防巡检柜
- 下一篇:一种土体内部侵蚀变形响应模拟方法