[发明专利]基于Transformer的在线更新目标跟踪方法及系统在审
申请号: | 202210751307.X | 申请日: | 2022-06-29 |
公开(公告)号: | CN114998601A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 刘笑含;李爱民;刘德琦;程梦凡 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/26;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 在线 更新 目标 跟踪 方法 系统 | ||
1.基于Transformer的在线更新目标跟踪方法,其特征在于,包括如下步骤:
获取模板图像和搜索图像;
采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
引入在线更新模块,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;
基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合,得到对应的融合特征图;
采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
2.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征,具体包括:
利用块分割模型将模板图像和搜索图像分割为不重叠的块;
将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取,包括:
采用局部分组注意力将特征图分割开,划分为多个子窗口,将其映射至对应的子特征图上;
从全局对分组注意力结果进行融合,采用全局子采样注意力将各个子特征图展开恢复原形。
3.如权利要求2所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述在采用局部分组注意力将特征图分割开,划分为多个子窗口后,将每一个窗口提取一个降维后的低维特征作为各个窗口的表征,基于该表征再和各个窗口进行交互。
4.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合中,具体包括:
分别将模板图像特征、更新模板特征和融合模板图像特征折叠成一维向量输入至编码器中,采用多头注意力机制来细化每个元素的特征嵌入,对每一个独立的头计算注意力,将注意力机制扩展到多个头中并行处理得到解码后的模板图像特征、更新模板特征和融合模板图像特征;
采用多头交叉注意力将编码器输出的模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合。
5.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述采用多模板策略,将对应的融合特征图映射至预测头得到对应特征图的分类响应图和边界框回归图,每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分支,头部对每个向量进行预测,得到前景/背景分类结果以及相对于搜索的归一化坐标区域大小。
6.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述Transformer跟踪器的总损失函数由三部分组成:
Lfinal=Lbasic+Lupdate+Ltotal
第一部分为匹配搜索图像和模板图像,得到一个基本的损失函数Lbasic,可以使网络具有基本的跟踪能力,第二部分为更新损失Lupdate,由于更新图像也可以被认为是目标模板,由于采样时间的差异,它可以提供与模板图像互补的数据,第三部分为整体损失Ltotal,将模板图像和更新图像进行融合来预测对象的状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210751307.X/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法