[发明专利]一种基于多层时序滤波的目标跟踪方法有效
申请号: | 201910396789.X | 申请日: | 2019-05-14 |
公开(公告)号: | CN110111358B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 权伟 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06T7/246;G06N3/04;G06N3/08 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 葛启函 |
地址: | 610031 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于多层时序滤波的目标跟踪方法,涉及计算机视觉模式识别技术领域。步骤一、从初始图像中选择并确定要跟踪的目标对象,步骤二、多层时序滤波网络包括并列的两个基础时序网络,记为基础时序网络1和基础时序网络2,它们具有相同的网络结构;步骤三、多层时序滤波网络训练,采用Adam优化方法训练,所述多层时序滤波网络具备目标定位能力;步骤四、提取视频图像作为要进行跟踪的输入图像;按照时间顺序,逐个提取帧图像作为输入图像;步骤五、通过基础时序网络1对目标位置进行初步的估计;将步骤一中的初始图像作为Ft,将当前输入的帧图像作为Ft+1。步骤六、通过基础时序网络2对目标进行准确的定位。 | ||
搜索关键词: | 一种 基于 多层 时序 滤波 目标 跟踪 方法 | ||
【主权项】:
1.一种基于多层时序滤波的目标跟踪方法,包括如下步骤:步骤一、目标选取从初始图像中选择并确定要跟踪的目标对象,提取其目标图像块;目标选取过程通过运动目标检测方法自动提取,或者通过人机交互方法手动指定;步骤二、多层时序滤波网络构建所述多层时序滤波网络包括并列的两个基础时序网络,记为基础时序网络1和基础时序网络2,它们具有相同的网络结构;所述基础时序网络采用VGG‑16网络的Block3‑Conv1层和Block4‑Conv3层作为空间特征提取部分,采用LSTM网络作为时间特征提取部分;基础时序网络的输入为两个包含目标的关注区域图像,即两个目标ROI图像,第一个目标ROI图像规则化为128*128*3像素大小,第二个目标ROI图像规则化为256*256*3像素大小;在基础时序网络中,第一个目标ROI图像和第二个目标ROI图像经VGG‑16网络正向处理后分别输出Block3‑Conv1层和Block4‑Conv3层的节点值,将这两层节点值分别作为LSTM网络的输入,经LSTM网络正向处理后输出两个对应的隐含层节点值,将这两个隐含层节点值分别通过1*1*256像素的卷积后获得两个对应的时间特征值;将第一个目标ROI图像对应的第一个时间特征值与第二个目标ROI图像对应的第一个时间特征值进行卷积,获得响应图L;将第一个目标ROI图像对应的第二个时间特征值与第二个目标ROI图像对应的第二个时间特征值进行卷积,获得响应图H;将响应图H规则化为33*33像素大小后与响应图L合并,输出目标响应图R;输入基础时序网络1的第一和第二目标ROI图像分别为,当前帧图像Ft中以目标为中心且4倍于目标大小提取的目标ROI图像和下一帧图像Ft+1;输入基础时序网络2的第一和第二目标ROI图像分别为,当前帧图像Ft中以目标为中心且2倍于目标大小提取的目标ROI图像和下一帧图像Ft+1中以根据基础时序网络1输出的目标响应图R估计的目标位置为中心且4倍于目标大小提取的目标ROI图像;步骤三、多层时序滤波网络训练这里采用ImageNet视频数据集对多层时序滤波网络进行训练,即对基础时序网络1和基础时序网络2分别采用ImageNet视频数据集进行训练;训练方法采用Adam优化方法,即深度神经网络训练方法;训练完成后,所述多层时序滤波网络具备目标定位能力;步骤四、图像输入在实时处理情况下,提取通过摄像头采集并保存在存储区的视频图像,作为要进行跟踪的输入图像;在离线处理情况下,将已采集的视频文件分解为多个帧组成的图像序列,按照时间顺序,逐个提取帧图像作为输入图像;如果输入图像为空,则整个流程中止;步骤五、目标位置估计通过基础时序网络1对目标位置进行初步的估计;如果是第一次跟踪,则将步骤一中的初始图像作为Ft,将当前输入的帧图像作为Ft+1,如果不是第一次跟踪,则将上一帧图像作为Ft,将当前输入的帧图像作为Ft+1,然后将Ft中以目标为中心且4倍于目标大小提取的第一目标ROI图像和将Ft+1直接作为第二目标ROI图像输入基础时序网络1,经基础时序网络1正向处理后输出得到其对应的目标响应图;将该目标响应图中最大值所对应的位置作为目标的滤波位置,然后将该位置按照33*33像素到Ft+1图像大小的比例关系变换为其对应在Ft+1中的位置,并将该位置作为估计的目标位置;步骤六、目标定位通过基础时序网络2对目标进行准确的定位;如果是第一次跟踪,则将步骤一中的初始图像作为Ft,将当前输入的帧图像作为Ft+1,如果不是第一次跟踪,则将上一帧图像作为Ft,将当前输入的帧图像作为Ft+1,然后将Ft中以目标为中心且2倍于目标大小提取的第一目标ROI图像和Ft+1中以步骤五中所述的估计的目标位置为中心且4倍于目标大小提取的第二目标ROI图像输入基础时序网络2,经基础时序网络2正向处理后输出得到其对应的目标响应图;将该目标响应图中最大值所对应的位置作为目标的滤波位置,然后将该位置按照33*33像素到Ft+1图像大小的比例关系变换为其对应在Ft+1中的位置,并将该位置作为当前定位的目标位置,目标定位完成;跳转到步骤四。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910396789.X/,转载请声明来源钻瓜专利网。