[发明专利]一种基于双流注意力机制的多模态监控视频目标跟踪方法在审
申请号: | 202310160388.0 | 申请日: | 2023-02-24 |
公开(公告)号: | CN116012793A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 廖阔;陈思情;潘启迪;卜志纯;张萍 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V20/40;G06V10/74;G06V40/70;G06V10/80 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 孙一峰 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 注意力 机制 多模态 监控 视频 目标 跟踪 方法 | ||
1.一种基于双流注意力机制的多模态监控视频目标跟踪方法,其特征在于,包括以下步骤:
S1、从监控视频数据中筛选出匹配的可见光-红外视频对,将视频对按照同一帧率保存为图像对获得输入样本;选取出图像对中代表第一帧的图像作为匹配图像,在匹配图像中将需要跟踪的目标用矩形框进行框选,后续帧的图像作为搜索图像;将输入样本记作Nj表示第j类样本的数量,表示可见光数据,表示红外数据;样本标签记作表示可见光数据标签,表示红外数据标签;
S2、构建神经网络,包括双流特征提取网络、多模态融合网络和跟踪网络;
所述双流特征提取网络包括两个结构相同分支,分别为匹配分支和搜索分支,匹配分支和搜索分支均分别对可见光图像和红外图像进行特征提取,具体为采用三个级联的transformer block进行特征提取;
所述多模态融合网络用于对双流特征提取网络提取的特性进行融合,具体为:定义双流特征提取网络中匹配分支的三个transformer block输出分别为(X1V,X1T),(X2V,X2T),(X3V,X3T),定义搜索分支的三个transformer block输出分别为(Z1V,Z1T),(Z2V,Z2T),(Z3V,Z3T);多模态融合网络分别获取每一个transformer block的输出并进行融合得到:
X1=cat(Xv1、Xt1)
X2=cat(Xv2、Xt2)
X3=cat(Xv3、Xt3)
Z1=cat(Zv1、Zt1)
Z2=cat(Zv2、Zt2)
Z3=cat(Zv3、Zt3)
其中,cat表示对图像进行通道融合;
再进行相关性计算得到相似度矩阵Si:
Si=corr(Zi,Xi),i=1,2,3
其中,corr表示相似度计算,即将尺寸较小的匹配图像Zi作为卷积核对Xi进行卷积操作的过程;
对相似度矩阵进行拼接,得到包含多尺度信息的相似度矩阵S:
S=cat(Si)
S=downsample(S)
其中,downsample表示降采样,将S投影到适合跟踪的维度空间,
所述跟踪网络包括三个分支,分别为:
分类损失分支,预测目标的中心位置:
其中,yt表示第t个样本的锚框真实标签,yt=1表示该锚框表示前景;mt表示该锚框是前景的概率;
回归损失分支,预测目标框四条边到中心点的距离:
其中,bbox表示预测框的大小,用四条边框和中心的距离表示,(i,j)表示S上的点;
中心损失分支,抑制中心点漂移:
其中,dt表示的是第j个中心位置的得分,σ表示sigmoid激活函数,ct和预测位置与中心位置的距离成正比;
跟踪网络的总损失为:
L=Lcls+η1Lreg+η2Lcen
其中,η1和η2是设定的超参数;
S3、采用S1的输入样本对S2构建的神经网络进行训练,具体为:将Mtrain划分为匹配图像对和搜索图像对作为神经网络的输入(Xv,Xt)和(Zv,Zt),其中(Zv,Zt)为匹配分支的输入,是从视频序列Mtrain中随机选取的某一帧;(Xv,Xt)为搜索分支的输入,选取方式为,在选择了匹配分支图像之后,从匹配分支图像之后的图像对中选取,记作(Xv,Xt);设置学习率为0.0005,通过损失函数反向传播来修正网络的权重,直至网络基本收敛,得到训练好的神经网络;
S4、利用训练好的神经网络进行目标跟踪,具体为:手动选取需要跟踪的目标,生成第一帧图像的标签,将含有标签的图像序列输入训练好的神经网络,得到目标中心的位置和目标的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310160388.0/1.html,转载请声明来源钻瓜专利网。