[发明专利]基于层次化Transformer的目标跟踪方法在审
申请号: | 202310224902.2 | 申请日: | 2023-03-09 |
公开(公告)号: | CN116385483A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 刘龙;魏珍 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王奇 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 transformer 目标 跟踪 方法 | ||
本发明公开了一种基于层次化Transformer的目标跟踪方法,步骤包括:1)将训练好的PVT_v2改进网络作为特征提取和特征融合网络,将FCN全卷积网络作为边框预测模块;2)获取跟踪视频,将第一帧手动选取目标区域,根据上一帧的目标大小确定当前帧的搜索区域,输入到特征提取和特征融合网络,并从特征提取和特征融合网络的三个阶段中得到注意力特征;3)进行加权融合,获得最终注意力特征;4)将最终注意力特征输入边框预测模块中,进行角点预测得到坐标位置,再得到跟踪目标边框。本发明方法,解决了因目标特征包含信息较少而引起的跟踪失败问题、因目标外观变化而引起的跟踪漂移问题。
技术领域
本发明属于目标跟踪技术领域,涉及一种基于层次化Transformer的目标跟踪方法。
背景技术
在计算机视觉领域中,目标跟踪一直是当前的重要课题和研究方向。目标跟踪的主要内容就是在给定某视频序列初始帧中目标信息的情况下,在后续帧中预测出该目标的位置及大小等关键信息。目标跟踪广泛应用于视频监控、智能化交通、人机交互、自主导航等多个领域,具有重要的理论研究价值和工程应用价值。
由于Transformer结构中注意力模块是一个非常灵活的体系结构,具有动态和全局建模能力,可用于一般关系建模;并且Transformer对大数据的适配能力好,对数据结构几乎不做任何假设,随着数据量的增加,模型的表现越好。因此,与Transformer相关的应用改进被引入目标跟踪领域,并产生良好的跟踪性能。
目前大多数基于Transformer的跟踪器都遵循特征提取和特征融合分开处理的设计范式,存在以下问题:首先,一些跟踪器中的Transformer结构只用于其中一部分操作,整个跟踪过程还依赖于其他结构,未充分利用Transformer结构中注意力模块的动态和全局建模能力,尤其是一些跟踪器仍然依赖于CNN特征提取,仅在后一个高级抽象表示空间中应用Transformer的注意力操作;其次,典型的Transformer跟踪器只利用Transformer的注意力机制提取注意力特征,未考虑不同层次特征包含的不同信息。
发明内容
本发明的目的是提供一种基于层次化Transformer的目标跟踪方法,解决了现有的Transformer目标跟踪方法未充分利用Transformer结构能力和未考虑不同层次特征信息而导致跟踪失败的问题。
本发明所采用的技术方案是,一种基于层次化Transformer的目标跟踪方法,按照以下步骤实施:
步骤1,将训练好的PVT_v2改进网络作为特征提取和特征融合网络,记为将FCN全卷积网络作为边框预测模块,记为
步骤2,获取跟踪视频,将第一帧手动选取目标区域,根据上一帧的目标大小确定当前帧的搜索区域,并一起输入到特征提取和特征融合网络;
分别从特征提取和特征融合网络的阶段1、阶段2和阶段3中得到各自对应的注意力特征和
步骤3,利用注意力特征和中包含的不同层次尺度信息,进行加权融合,获得最终注意力特征
步骤4,将最终注意力特征输入边框预测模块中,进行角点预测得到坐标位置,根据坐标位置得到跟踪目标边框。
本发明的有益效果是:1)通过使用Transformer的结构,使得网络具有全局建模能力,有效解决了因目标特征包含信息较少而引起的跟踪失败问题。2)将用网络不同层结构得到的特征做加权融合,充分利用了不同层次尺度特征的优点,使得网络对目标外观变化更鲁棒,有效解决了因目标外观变化而引起的跟踪漂移问题。
附图说明
图1是本发明方法的网络结构框图;
图2a是本发明方法采用的Transformer Encoder中的Transformer EncoderBlock的流程框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310224902.2/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法