[发明专利]基于多模态交互和多阶段优化的实时RGBT目标跟踪方法在审
申请号: | 202210673885.6 | 申请日: | 2022-06-15 |
公开(公告)号: | CN115170605A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 任桐炜;武港山;侯瑞超;许博约 | 申请(专利权)人: | 南京大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/269;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 交互 阶段 优化 实时 rgbt 目标 跟踪 方法 | ||
1.基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,其特征在于基于红外光和可见光两种模态交互,构建一个目标跟踪模型,首先利用已有RGBT目标跟踪数据进行离线训练,在线跟踪时,根据首帧确定的跟踪目标在线微调跟踪目标模型参数,然后对视频序列进行实时目标跟踪;所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块,实现如下:
步骤1):将经过时空配准的热红外和可见光图像作为目标跟踪模型的输入;
步骤2):构建共享权重的双流特征提取模块,所述双流特征提取模块利用轻量化VGG-M的前三层卷积对输入的热红外及可见光图像提取红外和可见光的深度特征;
步骤3):构建多模态交互融合模块,对提取的红外和可见光的深度特征,计算多头跨模态注意力生成特征残差图,以双向增强的方式提升模态质量:
单一跨模态注意的从红外到可见光模式的判别特征转换表示为公式如下:
上式中,表示一对从步骤2)中获取的可见光和红外深度特征,R表示可见光,T表示红外,公式(1)中Q,K和V分别表示查询、键和值,均经过1×1卷积操作进行变维,dk表示尺度因子,首先,建立QR和KT之间的交叉模态关联,然后通过softmax函数生成注意矩阵,最后,交叉模态特征由注意力矩阵和VT加权生成,为了兼顾不同空间的注意力分布,将单一跨模态注意扩展到多头结构,公式如下:
MultiHead(QR,KT,VT)=Concat(H1,...,Hn)WO (2)
Hi=Attention(QRWiQ,KTWiK,VTWiV) (3)
上式中,表示第i个注意力头下Q,K和V的权重矩阵,WO表示多头注意力拼接的权重矩阵,n表示注意力头的个数,i=1,...,n,Concat表示级联操作;
得到多头跨模态注意力的特征残差图FT-R=MultiHead(QR,KT,VT),根据双向增强的特性,根据上述公式反之计算得FR-T=MultiHead(QT,KR,VR),FR-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征,即得到两个特征互补残差图FR-T和FT-R;
步骤4):使用门控函数去除步骤3)所得结果中的冗余特征信息,再利用级联的方式将增强的多模态特征聚合;
步骤5):利用ROIAlign在步骤4)所生成的融合特征图上进行目标与背景采样,以目标为正例,背景为负例构建训练样本,用于训练目标分类器;
步骤6):构建目标分类器,由三层全连接层组成,使用softmax计算二分类损失,从而更新模型参数,目标分类器输出跟踪预测结果;
步骤7):构建结果优化模块,由光流算法和优化模型组成,光流用于预测目标的大范围移动,计算相邻两帧之间的偏移量,对跟踪结果进行修正,优化模型则对预测结果进行二次回归,从而获得更为精确的定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210673885.6/1.html,转载请声明来源钻瓜专利网。