[发明专利]基于运动先验的孪生网络卫星视频目标跟踪方法在审
申请号: | 202210318973.4 | 申请日: | 2022-03-29 |
公开(公告)号: | CN114842047A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 张洪艳;刘晓芬;杨光义;张良培 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 运动 先验 孪生 网络 卫星 视频 目标 跟踪 方法 | ||
1.基于运动先验的孪生网络卫星视频目标跟踪方法,其特征在于,包括以下步骤:
步骤1,根据已知的上一帧目标中心位置,得到目标模板、搜索区域以及和搜索区域对应的光流RGB图,并利用特征提取网络对目标模板、搜索区域以及光流RGB图分别进行特征提取,得到三层不同深度的目标特征;
步骤2,构建光流注意力网络,将光流的深度特征经过注意力网络得到带有运动信息的光流空间注意力,作用于目标模板深度特征和搜索区域深度特征互相关得到的相似性响应图上,将三个不同深度的相似性响应图在通道维进行拼接,经过两层卷积网络变成单通道的最终带运动特征的响应图,通过参数优化,对整个跟踪算法网络进行训练直至损失收敛至最低;
步骤3,在网络训练结束后的跟踪过程中,当帧数超过阈值,计算跟踪目标在一定阈值内的历史帧中位置偏移的平均速度,包括大小和方向,进一步得到运动掩膜代替传统汉宁窗,通过将该运动掩膜以一定的权重和网络得到的最终带运动特征的响应图相加对响应图进行优化,选取响应图上值最大的位置作为目标在当前帧中的中心位置,并将目标在最终响应图上的位置偏移映射到搜索区域对应的视频帧中。
2.根据权利要求1所述的基于运动先验的孪生网络卫星视频目标跟踪方法,其特征在于:步骤1中,得到不同深度的目标特征的方式为,给定上一帧目标的位置和大小,设置上一帧中得到目标模板Z和目标光流模板Zf,在当前帧中得到搜索区域X,通过借助opencv的稠密光流计算函数cv2.calcOpticalFlowFarneback()计算Zf和X之间的光流F,即光流RGB图,特征提取网络是三个共享权重的Resnet网络组成的平行分支结构,分别包括目标模板分支,搜索区域分支和光流分支,目标模板分支由Z作为输入,搜索区域分支由X作为输入,光流分支由F作为输入,三个分支共享CNN结构和参数,以搜索区域分支为例,输出特征为:
其中代表ResNet网络,输出第三层、第四层和第五层特征,另外两分支通过同样的操作得到三层不同深度的输出特征。
3.根据权利要求2所述的基于运动先验的孪生网络卫星视频目标跟踪方法,其特征在于:步骤2中,光流的深度特征经过注意力网络得到带运动信息的空间注意力其中,C代表特征的通道数,W和H分别代表特征的宽和高,目标模板深度特征和搜索区域深度特征进行互相关得到相似性响应图,进一步将得到的空间注意力施加到响应图上,将三个不同深度的相似性响应图在通道维进行拼接,然后通过通道维拼接和降维,得到最终带运动特征的相似性响应图;
在该部分使用的注意力网络可以把深度特征转换为仅剩一个通道的空间注意力特征,输入的光流特征经过线性变化和permute操作得到序列和键其中q经过平均池化和最大池化,过程可以表示为:
q'=Avgpool(q)+Maxpool(q) (2)
其中q'和k经过reshape操作分别得到和然后Q经过softmax操作,与K进行矩阵乘法,进一步通过reshape和Sigmoid操作得到空间注意力,该过程表示为:
经过注意力网络得到的空间注意力A包含了目标的运动特点,然后将其赋予相似性响应图,得到经过注意力机制作用后的相似性响应图:
O'=A⊙O (5)
其中O为目标模板深度特征和搜索区域深度特征互相关得到的相似性响应图,O'为加入光流注意力之后的相似性响应图;得到的三个不同网络深度下的相似性响应图,在通道维进行拼接,经过卷积网络降维为单通道作为最终的输出结果。
4.根据权利要求1所述的基于运动先验的孪生网络卫星视频目标跟踪方法,其特征在于:通过最小化损失函数来进行训练整个跟踪算法网络,损失函数采用logistic损失:
l(y,o)=log(1+exp(-yo)) (6)
其中y∈{-1,+1}为真实标签,o为输出值,对于最终带运动特征的响应图,D表示响应图二维离散区域,|D|表示区域内点数之和,定义整个响应图的损失表示为:
通过Adam优化最小损失函数,u指最终带运动特征的响应图中的每个离散点。
5.根据权利要求4所述的基于运动先验的孪生网络卫星视频目标跟踪方法,其特征在于:在步骤3中,在网络训练完成后的目标跟踪阶段,设置跟踪帧数阈值T,当跟踪帧数超过阈值之后,根据之前积累的最近T帧的目标位置偏移量得到目标平均每帧的偏移,即目标的速度v,响应图的大小为h×w,以最终带运动特征的响应图的中心点为原点,运动掩膜可表示为:运动掩膜上每个点值得计算过程为:
式中,代表运动掩膜上每个点相对于原点的向量与速度向量的夹角余弦值,其中(i,j)表示坐标点,vx和vy分别表示目标在横轴方向和纵轴方向上的速度大小,同时,产生与运动掩膜相同大小的汉宁窗,用汉宁窗上每个位置的值乘以该位置对应的夹角余弦值,得到运动掩膜上该点的最终值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210318973.4/1.html,转载请声明来源钻瓜专利网。