[发明专利]一种基于持续学习的长时视觉目标跟踪方法在审

申请号：	201910956780.X	申请日：	2019-10-10
公开（公告）号：	CN110728694A	公开（公告）日：	2020-01-24
发明（设计）人：	张辉;朱牧;张菁;卓力;齐天卉;张磊	申请（专利权）人：	北京工业大学
主分类号：	G06T7/20	分类号：	G06T7/20;G06N3/08;G06N3/04
代理公司：	11203 北京思海天达知识产权代理有限公司	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视觉目标长时跟踪网络模型模型初始化在线跟踪初始化神经网络结构智能视频监控短时模型过程转换历史数据模型更新人机交互适应目标视觉导航视觉跟踪外观描述应用需求有效解决在线更新鲁棒性学习视频更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于持续学习的长时视觉目标跟踪方法，其特征在于：包括网络模型设计、模型初始化、在线跟踪和模型更新四部分；

网络模型设计：针对长时视觉目标跟踪设计的深度神经网络结构；

模型初始化：包括3个步骤：初始帧分割图像获取；模型初始化训练样本库生成；模型初始化训练及模型获取；其中，模型初始化训练及模型获取阶段包括损失函数、梯度下降法的选取；

在线跟踪：包括3个步骤：生成候选样本；获取最佳候选样本；使用目标框回归定位目标区域；

模型更新：包括3个步骤：更新方式选择；模型更新样本库的生成与更新；持续学习方式模型训练及模型获取；其中，样本库生成中包括在线样本集和记忆感知样本集获取；样本库更新中包括在线样本集和记忆感知样本集更新；持续学习方式模型训练及模型获取阶段包括损失函数、梯度下降法的选取。

2.根据权利要求1所述的方法，其特征在于，所述的网络模型设计，具体步骤如下：

针对长时视觉目标跟踪设计的深度神经网络结构：网络结构由共享层和分类层组成；其中，共享层包括3个卷积层、2个最大值池化层、2个全连接层和5个非线性激活ReLU层；卷积层与通用VGG-M网络的相应部分相同；接下来的两个完全连接的层各有512个输出单元，并结合了ReLU和Dropouts模块；分类层是包含了Dropouts模块和具有softmax损失的二值分类层，负责区分目标和背景；

在卷积神经网络CNN的图像处理过程中，卷积层之间需要通过卷积滤波器联系，卷积滤波器的定义表示为N×C×W×H，其中N代表卷积滤波器的种类，C代表被滤波通道的通道数；W、H分别代表滤波范围的宽、高。

3.根据权利要求1所述的方法，其特征在于，所述的模型初始化，具体步骤如下：

(1)初始帧分割图像获取：初始帧模板的质量对当前的跟踪结果有着重要的影响；为了增加被跟踪目标的详细表示，通过超像素级分割，使得分割后的图像不仅在颜色和纹理上与目标一致，而且还保留了目标的结构信息；

(2)训练样本库的生成：分别在第一帧原始图像和分割图像的初始目标位置周围随机采样抽取N₁个样本；这些样本根据它们与真实标注框的交并比分数被标记为正样本和负样本；

(3)模型初始化训练及模型获取：在跟踪序列的初始帧，对网络最后输出的分类得分，采用二分类交叉熵损失作为损失函数求其损失，然后使用梯度下降法对网络全连接层参数进行更新；其中，训练全连接层进行H₁迭代，全连接FC4-5层的学习率设置为0.0005，分类层FC6层的学习率设置为0.005；动量和权重衰减分别设置为0.9和0.0005；最后，经过反复迭代，当达到H₁即50次以上迭代时停止训练，获得网络初始化模型。

4.根据权利要求1所述的方法，其特征在于，所述的在线跟踪，具体步骤如下：

(1)目标候选样本生成：给定视频序列中的每一帧，首先围绕前一帧中目标的预测位置绘制N₂个候选样本；

(2)获取最佳候选样本：将步骤(1)获取的N₂个候选样本送入当前的网络模型中计算分类得分，取分类得分最高的候选样本作为估计的目标位置；

(3)目标框回归：步骤(2)获得估计的目标位置后，使用目标框回归方法定位目标区域获得跟踪结果。

5.根据权利要求1所述的方法，其特征在于，所述的模型更新，具体步骤如下：

(1)更新方式选择：综合考虑目标跟踪中的两个互补方面：鲁棒性和自适应性；采用长时更新和短时更新两种模型更新方式；在跟踪过程中，每隔f＝8～10帧执行一次长时更新，当模型将估计的目标位置分类为背景时执行一次短时更新；

(2)模型更新样本库的生成与更新：模型更新样本库包括在线样本集和记忆感知样本集两部分，其中f_l＝80～100和f_s＝20～30分别表示长时收集样本设定帧数和短时收集样本设定帧数；和分别表示在线样本集中的在线正样本集和在线负样本集，和分别表示记忆感知样本集中的记忆感知正样本集和记忆感知负样本集；

(3)对在线跟踪中的每一帧，当模型将估计的目标位置分类为前景时表明跟踪成功，就在估计的目标位置周围随机采样，分别收集个正样本和个负样本添加到和样本集中，其中t表示在线跟踪视频序列的第t帧；对在线正样本集当跟踪成功超过f_l帧时删除在最早帧中收集的正样本，然后把删除的正样本添加到记忆感知正样本集中，即在线正样本集只收集最新跟踪成功的f_l帧样本；对在线负样本集当跟踪成功超过f_s帧时删除在最早帧中收集的负样本，然后把删除的负样本添加到记忆感知负样本集中，即在线负样本集只收集最新跟踪成功的f_s帧样本；对记忆感知正样本集当其收集超过f_l帧时，使用K均值聚类算法将样本集聚成N_C＝10个类，当有新样本时，分别计算新样本的特征均值向量与N_C个聚类中心的欧式距离，并将新样本添加到与其欧式距离最小的类中，同时删除此类中最早的与新样本数量相同的样本，确保记忆感知正样本集在更前后样本集总数不变；对记忆感知负样本集当收集超过f_s帧时删除在最早帧中收集的样本，即记忆感知负样本集只收集最新的f_s帧样本；

(4)持续学习方式模型训练及模型获取：持续学习方式模型训练包括预热训练和联合优化训练两阶段；

在模型长时更新或短时跟新时，若记忆感知样本集还没有收集到样本，利用步骤(2)中收集的在线样本集对模型进行训练，对网络最后输出的分类得分，采用二分类交叉熵损失函数计算其分类损失；最后根据当前的分类损失，使用梯度下降法对网络全连接层参数进行更新，训练全连接层进行H₂＝15次迭代；当记忆感知样本集有样本时，首先，利用步骤(2)中收集的在线样本集对模型进行预热训练，采用二分类交叉熵损失函数计算其分类损失，然后使用梯度下降法对网络全连接层参数进行更新，训练全连接层进行H₃＝10次迭代；当模型预热训练结束后，利用步骤(2)中收集的在线样本集和记忆感知样本集对模型进行联合优化训练，对在线样本集利用二分类交叉熵损失函数计算其分类损失，对记忆感知样本集利用知识蒸馏损失函数计算其知识蒸馏损失，最后的总损失为分类损失加上λ＝0.7倍的知识蒸馏损失；计算出总损失后，使用梯度下降法对网络全连接层参数进行更新，训练全连接层进行H₄＝15次迭代；其中在各训练阶段，全连接FC4-5层的学习率都设置为0.001，分类层FC6层的学习率都设置为0.01，动量和权重衰减都是分别设置为0.9和0.0005。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910956780.X/1.html，转载请声明来源钻瓜专利网。

上一篇：大规模行车路面三维点云的生成方法及系统
下一篇：基于图像区域积累的视频SAR运动目标检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于持续学习的长时视觉目标跟踪方法在审

专利文献下载