[发明专利]基于注意力机制的双流层次孪生网络目标跟踪方法有效
申请号: | 202011067770.X | 申请日: | 2020-10-07 |
公开(公告)号: | CN112258554B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 杨博;胡小鹏;王凡 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 双流 层次 孪生 网络 目标 跟踪 方法 | ||
1.一种基于注意力机制的双流层次孪生网络目标跟踪方法,其特征在于,步骤如下:
第一步,构建定位子网与语义子网,每个子网均为一个孪生网络,在定位子网中,利用孪生网络提取前一帧目标模板特征和搜索区域特征,在语义子网中,利用孪生网络提取第一帧目标模板特征和搜索区域特征;
由定位子网和语义子网两个子网络组成,每一个子网络都是一个深度孪生神经网络;在孪生网络中,模板分支和搜索分支的相同结构共享网络权值,学习一个用于计算目标模板区域和搜索区域之间的相似性得分的相似性匹配函数;在定位子网中,将前一帧作为模板图像,使用低层特征来获取连续帧间的空间位置信息,此外,应用空间注意模块进一步突出目标的重要空间信息;在语义子网中,将第一帧为模板图像,使用高层特征来计算搜索图像与目标的语义相似度,此外,应用通道注意模块对不同的通道赋予不同的权重,进一步突出目标更重要的语义特征;每个子网通过相关操作都可得到一个响应图作为输出;定位子网的响应图蕴含着连续帧间的空间位置信息,语义子网的响应图则反映了当前帧与第一帧之间的语义相似度;通过融合两个子网的响应图可集成目标的空间信息与语义信息,利用互补优势从而得到最终的响应输出;
第二步,构建空间注意力模块增强定位子网中提取的空间特征;
在定位子网中构建空间注意力模块,空间注意力模块用来关注输入图像中的重要空间信息,激活与目标相关性高的空间特征;首先在通道维度上分别做一个最大池化操作和平均池化操作,获得两个不同的特征描述;然后通过串联合并两个特征描述获得具有两个通道的特征图;之后经过一个卷积操作,将其降维为1个通道;再利用Sigmoid激活函数将权值图元素限制在0至1之间,使得加权处理后得到的特征图不会发生显著变化,而且在一定程度上增强空间信息;具体方法如下:
Ms(F)=σ(f7*7([AvgPool(F);MaxPool(F)])) (1)
其中,
F代表输入特征,Ms(F)代表最终得到的空间权值图,σ代表Sigmoid激活函数,f7*7代表卷积核为7×7的卷积操作,AvgPool和MaxPool分别代表平均池化操作和最大池化操作;
和分别代表F经过最大池化操作和平均池化操作后得到的两个特征描述;将输入特征与权值进行元素级乘法完成空间特征选择,然后利用相似性度量函数计算得到来自定位子网的响应映射:
其中,RL(z;x)代表定位子网的响应映射,g代表相似性度量函数,Ms(F)为空间权值图,代表原始图像经过卷积层进行特征提取,和分别代表模板分支和搜索分支经过卷积层后得到的特征;
第三步,构建通道注意力模块激活语义子网中与目标信息相关性强的通道特征;
在语义子网中构建通道注意力模块,对跟踪特定目标方面发挥更重要作用的通道赋予更高的权重,提高目标信息的敏感性,抑制背景信息所带来的负面影响;通道注意力网络的设计原理在于利用深度网络获取的特征图各通道对目标特征表达的贡献程度存在差异,不同目标激活不同特征通道;为了有效地计算通道注意力,将输入的特征映射分别经过基于宽度和高度的最大池化操作和平均池化操作得到特征向量,然后经过一个双层感知器MLP;将MLP输出的特征进行元素级的加和操作,再经过Sigmoid激活操作生成最终的通道注意力权值图;具体方法如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (4)
其中,
F代表输入特征,Mc(F)代表最终得到的通道
权值图,σ代表Sigmoid激活函数,
MLP代表多层感知机模型,AvgPool和MaxPool分别代表平均池化操作和最大池化操作;
和分别代表F经过最大池化操作和平均池化操作后得到的两个特征描述;W0和W1代表多层感知器模型中的参数;将输入特征与权值进行元素级乘法完成通道特征选择,然后利用相似性度量函数计算得到来自语义子网的响应映射:
其中,RS(z;x)代表语义子网的响应映射,g代表相似性度量函数,Mc(F)为通道权值图,代表原始图像经过卷积层进行特征提取,和分别代表模板分支和搜索分支经过卷积层后得到的特征;
第四步,对两个子网的输出响应图进行加权融合以实现跟踪
对两个子网的输出响应图进行加权融合实现目标跟踪;定位子网通过提取低层特征来表示当前帧与前一帧之间的空间位置信息,语义子网则使用高层特征来计算当前帧与第一帧之间的语义相似度;经过计算,每个子网都可得到一个输出响应图,对于不同的场景,定位子网和语义子网扮演着不同的角色;定位子网所得到的响应图中包含详细的空间信息,语义子网所得到的响应图中包含丰富的语义信息;为了提高跟踪器的鲁棒性,通过将两个网络的响应图进行加权融合来定位目标;融合方法定义如下:
R=ωLRL+ωsRs (7)
其中,R代表最终的响应输出,RL和Rs分别是定位子网和语义子网的响应输出图,ωL和ωs代表相应的权重系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011067770.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种变量摆线液压马达
- 下一篇:一种提高偏光片光学对位精度的装置