[发明专利]一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法在审
申请号: | 201910771090.7 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110490906A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 王彩玲;臧振飞;蒋国平 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/04;G06N3/08 |
代理公司: | 32102 南京苏科专利代理有限责任公司 | 代理人: | 姚姣阳<国际申请>=<国际公布>=<进入 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 跟踪 卷积 记忆网络 深度特征 连续两帧图像 输出 网络 两帧图像 目标特征 视觉目标 视频序列 输出目标 搜索区域 特征提取 语义特征 预测位置 连接层 实时性 输出门 层级 建模 联组 遗忘 激活 筛选 传输 更新 保证 | ||
1.一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法,其特征在于,包括如下步骤:
步骤S1、对于待跟踪的视频序列,采用前后连续的两帧图像作为网络每次获取的输入;
步骤S2、通过孪生卷积网络对输入的连续两帧图像进行特征提取,经过卷积操作后获取不同层次的外观和语义特征,再通过全连接层级联组合高低层次的深度特征;
步骤S3、将深度特征传输至包含两个LSTM单元的长短期记忆网络进行序列建模,由LSTM遗忘门对序列中不同位置的目标特征进行激活筛选,并通过输出门输出当前目标的状态信息;
步骤S4、接收LSTM输出的全连接层用以输出目标在当前帧的预测位置坐标,并更新下一帧目标的搜索区域。
2.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法,其特征在于,所述步骤S2中,孪生卷积网络由网络层数、结构、卷积核大小、池化方式和与Padding步长完全相同且共享权值的两个卷积网络上下并联组成;网络层数包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层和第三池化层;第一卷积层的卷积核大小和通道数为11*11*96,第二卷积层的卷积核大小和通道数为5*5*256,第三卷积层、第四卷积层和第五卷积层的卷积核大小和通道数均为3*3*384,第一池化层、第二池化层和第三池化层的滤波器大小和通道数为3*3;第一卷积层、第一池化层、第二池化层和第三池化层的padding方式为valid方式,第二卷积层、第三卷积层、第四卷积层和地五卷积层的padding方式为same方式;输入图像被孪生卷积网络修改至尺寸为227*227*3。
3.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法,其特征在于,长短期记忆网络部分包含两个LSTM单元,其中第一LSTM接收来自全连接层的卷积特征输入,第二LSTM以第一LSTM的输出和孪生卷积网络部分的级联特征为输入,并结合连续且独立的的跟踪视频序列进行序列数据建模,对同一序列中的同一目标在不同状态下分别计算对应各个序列状态的输出。
4.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法,其特征在于,视频序列的数据集包括ILSVRC2016视频目标检测数据集、阿姆斯特丹常规视频数据库和非自然视频序列,ILSVRC2016视频目标检测数据集包含3862个视频序列,1122397幅图像,1731913个标定目标的边界框,以及7911个目标运动轨迹;阿姆斯特丹常规视频数据库包含314个视频序列,148319幅图像,每个视频序列包含一个特定目标;非自然视频序列由人工合成方法从ImageNet数据集中选用478807幅静止图像合成构造而成。
5.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法,其特征在于,两个LSTM单元的前馈方式为
其中,t为帧的索引,xt和yt-1分别为当前时刻输入帧和前一时刻输出帧的特征向量,W、R、P分别为输入门、输出门和peephole传递的权重系数矩阵,b为偏差向量,h为双曲正切函数,σ为sigmoid函数,⊙为点乘;z为LSTM单元的整体输入,i为在LSTM的cell间传递的输入门,o为LSTM每个cell的输出门,f为遗忘门,c为序列中不同时刻的cell状态,y为LSTM的整体输出;一次前向传递生成用于存储当前帧目标状态的输出向量yt和处理当前帧时LSTM的cell状态ct,且yt和ct都将被当作输入传递到处理后续帧时的cell,从而达到在序列数据上前向传播。
6.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法,其特征在于,待跟踪的视频序列输入时,其序列首帧的目标位置以左上坐标和右下坐标成对的形式给定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910771090.7/1.html,转载请声明来源钻瓜专利网。