[发明专利]一种基于频率自适应的图像-文本匹配方法及系统有效
申请号: | 202110260146.X | 申请日: | 2021-03-10 |
公开(公告)号: | CN112861882B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 赵晶;秦宥煊 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/75;G06V10/774;G06V10/82;G06F40/30;G06N3/045;G06N3/0464;G06N3/0442;G06N3/042;G06N3/048 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 频率 自适应 图像 文本 匹配 方法 系统 | ||
本发明公开了一种基于频率自适应的图像‑文本匹配方法及系统。该方法为图像区域增添上下文信息,在图卷积上自适应地聚合低频和高频信号,实现了显著物体区域之间的语义推理;然后,提出一个注意力交互方法,通过迭代机制生成全局特征,在单词和图像区域的聚合过程中逐步达到语义对齐的效果;最后,利用损失函数获得最终匹配效果。
技术领域
本发明属于图像-文本匹配领域,尤其涉及基于频率自适应的图像-文本匹配方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
1、匹配方法:以往的匹配方法用嵌入将图像和文本映射到共同空间中进行简单对比,通过学习不同模态的映射分析视觉-文本的层次结构,得到对应的匹配效果。随着互联网的快速发展,用户对匹配精度的要求也在不断提高。为此,目前注意力机制在模态匹配上使用很广泛。例如使用双重注意机制,汇集各个局部的相似点进行相似性度量,获得不同模态中相同的突出部分。在此基础上,有学者通过提升特征提取效果从而提升匹配能力。例如,加入图像中实体的相对位置信息提高图像表示的准确性。
2、注意力机制:为了精确关注图像或文本中的重要信息,过滤掉不起作用的信息,注意力机制在图像-文本匹配中起到关键作用。目前,贴近人类真实感受的自下而上的注意力机制作为图像的提取方法,显示出强大的效果。它能够获取图像的显著目标从而达到更好的匹配效果。
3、语义推理:推理的目的在于从已知的条件下,用机器学习分析知识图谱中目标潜在的关系,这也是热门的研究课题。早先的推理在外推的基础上表示符号间的关系,缺少可解释性。路径排序算法采用抽象的关系路径替代逻辑规则,从而将关系推理问题转化为图上的有监督学习问题,也是关系推理的一种方法。目前,不少学者提出在路径排序算法的基础上作出改进,在推理准确性和计算效率上都有了很大提高。近年来,基于深度学习的关系推理模型成为推理领域的研究热点。研究人员尝试将先前的推理方法与深度学习相结合,利用记忆推理能力为自然语言处理和视觉信息处理找到新的突破点。
发明人发现,目前提出的图像-文本匹配模型中缺少对于图像-文本不同模态间细粒度的语义关系,很难模拟真实世界中人的匹配行为。对于复杂语义的单独模态内部联系(如图像中实体和属性之间的联系)还有待提高。图像的特征表示上,以往的方法只关注目标特征,忽略多个目标之间的关联,不利于学习整幅图像的精确表示。目前采用的GCN学习到的参数大于0,更注重对低频信号的聚合,这在某些条件下会模糊节点的表示,用在图像处理时不能展现出理想效果。
发明内容
为了解决上述问题,本发明的第一个方面提供一种基于频率自适应的图像-文本匹配方法,其能够利用图卷积中节点的高低频信号,自适应的给图片内部区域增加上下文信息,同时,可以利用迭代机制将异构的图像和文本数据高效的语义对齐,生成全局的特征表达提高匹配速率。
为了实现上述目的,本发明采用如下技术方案:
一种基于频率自适应的图像-文本匹配方法,包括:
获取数据,所述数据包括图像以及与图像匹配的文本;
使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。
进一步地,所述图像的初始表征,具体计算步骤为:
通过卷积神经网络得到图像的每个区域特征;
对所述的每个区域特征进行线性变换;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110260146.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序