[发明专利]基于双视域语义推理网络的图像文匹配方法在审
申请号: | 202010012176.4 | 申请日: | 2020-01-07 |
公开(公告)号: | CN111242197A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 吴春雷;吴杰;王雷全;路静;段海龙 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视域 语义 推理 网络 图像 匹配 方法 | ||
1.基于双视域语义推理网络的图像文匹配方法,其特征在于,所述方法包括以下步骤:
S1.从全局视域,构建全局语义推理匹配网络。
S2.构建区域增强模块,形成高亮显示图像区域的空间地图。
S3.结合S2中的增强特征,从局部视域构建局部语义推理匹配网络。
S4.结合S1中的网络和S3中的局部语义推理网络构建基于双视域语义推理网络架构。
S5.基于双视域语义推理网络的训练和图像文本匹配。
2.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S1的具体过程为:
基于图像区域特征X,我们使用双向GRU进行图像的全局推理,将区域特征的序列X={x1,…,xM},xm∈RD,一个接一个地进入Bi-GRUs。首先进行前向的推理,一个更新门Z控制上一时刻的状态信息被带入到当前状态中的程度。
Zt=sigmoid(Uzxt+VzCt-1) (1)
其中U和V为权值参数,Z值在[0,1]之间。特别是,较大的Z表示前一时刻的状态信息更多。
复位门类似于更新门,它控制将多少来自前一状态的信息写入当前候选集H,而较小的r表示前一时刻的状态信息更少。
rt=sigmoid(Uzxt+VzCt-1) (2)
然后利用复位门对内存信息进行复位,得到Eq16中的候选集合H。当r=0时,表示所有已记忆的信息被清除,当r=1时,表示所有已记忆的信息被保留。
最后,使用Z更新当前隐藏状态的输出,获得正向推理的特征。
同样,通过反向推理得到特征信息最终的图像特征C表示如下:
然后用公式6计算图像和文本的相似度得分.
3.根据权利要求1所述的基于双视域语义推理网络的图像文匹配方法,其特征在于,所述S2的具体过程为:
首先使用公式7来测量每个图像中所有区域间的相关性,将相关性作为一个权重表示其他位置与当前待计算位置的相似度,进而突出相关的区域。
其中F(xm)TG(xn)代表两个图像区域间的相关性,xm为第m个区域的图像特征,xn为第n个区域的图像特征。F(xm)=Wfx,G(xn)=Wgx,H(xn)=Whx,参数W均可以通过反向传播学习。然后按照因子N进行归一化,其中N代表图片中的区域数。
为了得到具有更强的语义关系图像区域特征X*,我们添加了残差网络,得到下式。
X*=W(Vm)Res+xi (8)
其中参数W的维数为1024×1024,输出的特征X*={x1,...,xm},xm∈RD是使图像中主体区域显著的空间地图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010012176.4/1.html,转载请声明来源钻瓜专利网。