[发明专利]一种基于自注意力推理的跨模态图文互索方法在审
申请号: | 202210184249.7 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114461821A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 李召 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/432;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 推理 跨模态 图文 方法 | ||
1.一种基于自注意力推理的跨模态图文互索方法,其特征在于,所述方法包括:
获取数据集,得到成对的原始图像数据与文本标注数据,并将其划分为训练集、验证集与测试集;
对于训练集中的每组数据对,分别提取图像经过预训练模型的初始特征以及文本编码后的特征嵌入;
自注意力推理,将两个模态特征映射到同一潜在公共空间,对图像分支进行其内部耦合关系的推理,利用自注意力机制计算各个局部边界框对于整体图像的贡献值融合为新的图像表征;
设计交叉注意力层得到两种模态语义在对方语义空间中的表示,计算相似度,利用三元组损失函数进行训练,最终实现跨模态的语义对齐;
模型验证,使用验证集对训练好的模型进行校验选择出最优的模型;
模型评估,使用测试集对最优模型进行评估,得到其检索精度;
图文互索,利用最终的最优模型实现图像和文本之间两个方向上的检索。
2.根据权利要求1所述的一种基于自注意力推理的跨模态图文互索方法,其特征在于,利用在Visual Genomes数据集上预训练的ResNet-101作为骨干网络的Faster R-CNN,进行一种自下而上的检测提取图像特征。
3.根据权利要求2所述的一种基于自注意力推理的跨模态图文互索方法,其特征在于,通过图像分支内部的注意力推理模块得到各个边界框即局部图像特征对全局特征而言的重要性以及它们之间的内在联系,对不相干语义进行筛除,推理出相应的权重系数融合得到最终图像的嵌入表示。
4.根据权利要求1所述的一种基于自注意力推理的跨模态图文互索方法,其特征在于,使用词嵌入的方法考虑各个单词间的联系,通过嵌入矩阵将每个单词嵌入到一个同维向量中,利用双向门控循环单元对文本特征进行最终编码,映射到与图像相同的公共子空间中。
5.根据权利要求1-4任一项所述的一种基于自注意力推理的跨模态图文互索方法,其特征在于,通过交叉注意力层计算每个局部图像与单词之间交互注意力矩阵,获取视觉语义在文本语义空间的特征表示和文本在视觉语义空间的特征表示,利用余弦函数计算两个模态间的相关性。
6.根据权利要求5所述的一种基于自注意力推理的跨模态图文互索方法,其特征在于,采用最大铰链和损失训练所述跨模态匹配模型,计算公式为:
Loss=[λ-S(I,T)+S(I,T′)]++[λ-S(I,T)+S(I′,T)]+
式中,S(I,T)代表相匹配图像与文本之间的相似度S(I,T'),S(I',T)则代表难例样本对之间的相似度T'=argmaxp≠TS(I,p),I'=argmaxq≠IS(q,T),λ代表裕度,[x]+=max(x,0)。
7.根据权利要求1所述的一种基于自注意力推理的跨模态图文互索方法,其特征在于,所述图文检索步骤,具体包括:将待查询的图片或文本分别进行特征提取后输入到最优模型中,得到该图片与所有文本或该文本与所有图片之间的匹配度分数矩阵,再对该矩阵进行分数从大到小的排序即可得到检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210184249.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微显示器贴合方法
- 下一篇:一种喷漆废水的处理装置和处理方法