[发明专利]一种基于频率自适应的图像-文本匹配方法及系统有效
申请号: | 202110260146.X | 申请日: | 2021-03-10 |
公开(公告)号: | CN112861882B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 赵晶;秦宥煊 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/75;G06V10/774;G06V10/82;G06F40/30;G06N3/045;G06N3/0464;G06N3/0442;G06N3/042;G06N3/048 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 频率 自适应 图像 文本 匹配 方法 系统 | ||
1.一种基于频率自适应的图像-文本匹配方法,其特征在于,包括:获取数据,所述数据包括图像以及与图像匹配的文本;
使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化;
所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为:选择图像和文本中的任一项作为查询模态,另一项作为另一模态;使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征;若图像为查询模态,则将查询模态的全局特征作为语义增强的图像全局特征,另一模态的全局特征作为语义增强的文本全局特征;若文本为查询模态,则将查询模态的全局特征作为语义增强的文本全局特征,另一模态的全局特征作为语义增强的图像全局特征;
其中,注意力交互函数Z=A(X,Y)具体定义如下:
H=tanh(UXX+(UYY)1T+ba1T)
其中,X、Y表示两输入模态的片段级特征集合,UX、UY、ba、ua作为注意力交互函数的参数;1代表所有元素都为1的特征向量;表示在Y的引导下对第k个片段的特征Xk的关注度;
所述计算带有全局上下文增强语义关系的图像区域集合,具体步骤为:对于图像构建一个无向图;为无向图中的每个节点自适应的聚合所有关联节点的高低频信息,得到语义推理后的节点,组成带有全局上下文增强语义关系的图像区域集合;其中,自适应的学习到用Wij表示的每个节点与它相邻节点的高低频比例;为每个节点vi聚合与它相邻的各个节点的高低频信息,在这个过程中,节点vi通过加入所有关联节点的信息,推理出增强后的节点v′i:
其中,φ为激活函数,l为图卷积的层数,表示节点vi在第l层的输出,v′i为节点vi在最后一层的输出,ε是一个超参数,Wij=tanh(gT|vi||vj|),||作为节点的拼接操作,gT是用来映射的一个共享的卷积核,vj表示节点vi的邻居节点,vi为归一化处理后的区域特征。
2.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述图像的初始表征,具体计算步骤为:
通过卷积神经网络得到图像的每个区域特征;
对所述的每个区域特征进行线性变换;
对线性变换后的每个区域特征进行归一化处理,得到每个区域归一化处理后的区域特征,组成图像的初始表征。
3.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述文本的初始表征,具体计算步骤为:
使用one-hot将文本中的每个单词编码;
计算每个单词的嵌入表示;
总结来自两个方向的上下文信息;
采用平均值的方式得到带有上下文信息增强的词特征,组成文本的初始表征。
4.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述损失函数为三元组损失函数。
5.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述注意力交互函数在另一模态的引导下,对查询模态不同片段的关注度不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110260146.X/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序