[发明专利]一种基于双模板响应融合的目标跟踪方法有效

申请号：	202011524190.9	申请日：	2020-12-22
公开（公告）号：	CN112541468B	公开（公告）日：	2022-09-06
发明（设计）人：	史殿习;王宁;刘聪;杨文婧;杨绍武	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	湖南企企卫知识产权代理有限公司 43257	代理人：	任合明
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于双模响应融合目标跟踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双模板响应融合的目标跟踪方法，其特征在于包括以下步骤：

第一步，搭建目标跟踪系统，目标跟踪系统由特征提取模块、互相关响应模块、响应融合模块和目标框输出模块构成；

特征提取模块与互相关响应模块相连，由卷积神经网络子模块和线性融合子模块组成；卷积神经网络子模块用来对输入图像进行特征提取，卷积神经网络子模块从外部接收视频第一帧的模板图像Z₀和随后每一帧的目标搜索区域图像，分别对Z₀和第i帧的目标搜索区域图像X_i进行特征提取，将提取得到的初始模板特征z₀和搜索区域特征x_i一起发送给互相关响应模块，同时将初始模板特征z₀发送给线性融合子模块；Z₀是要跟踪的目标，特征提取模块对Z₀进行特征提取得到的初始模板特征z₀；跟踪的任务是在X_i中找到与Z₀最相似的目标，特征提取模块对X_i进行特征提取得到搜索区域特征x_i；

线性融合子模块以初始模板特征z₀、上一帧即第i-1帧的融合模板特征和第i-1帧的跟踪目标特征z_i-1作为输入，其中z₀是卷积神经网络子模块的输出，是第i-1帧跟踪中线性融合子模块的输出，z_i-1是第i-1帧的跟踪结果图像特征；线性融合子模块对z₀、和z_i-1三个特征使用线性加权的方式进行融合，得到当前帧即第i帧的融合模板特征并将发送给互相关响应模块；在第一帧中，融合模板特征即为初始模板特征z₀，随后第i帧的融合模板特征都会用于第i+1帧的目标跟踪任务中，得到第i+1帧的目标跟踪结果；

互相关响应模块与特征提取模块和响应融合模块相连；该模块由两个平行的分支，即第一分类分支和第一回归分支组成，两个分支均为卷积神经网络，网络结构完全相同，但网络中的参数不同；第一分类分支用于生成分类互相关响应，由两个结构相同的卷积子模块组成：分类核子模块和分类搜索子模块，分类核子模块先从卷积神经网络子模块接收z₀，生成集成后的初始模板特征随后分类核子模块从线性融合子模块接收生成进一步集成后的融合模板特征分类搜索子模块从卷积神经网络子模块接收x_i，对x_i进行集成，得到集成后的搜索区域特征随后第一分类分支先将作为卷积核，将作为被卷积区域，进行卷积操作得到初始模板的分类互相关响应而后将作为卷积核，将作为被卷积区域，进行卷积操作得到融合模板的分类互相关响应最后第一分类分支输出和到响应融合模块；

第一回归分支用于生成回归互相关响应；第一回归分支包含两个子模块：回归核子模块和回归搜索子模块，回归核子模块先从卷积神经网络子模块接收z₀，生成集成后的初始模板特征随后从线性融合子模块接收生成集成后的融合模板特征回归搜索子模块从卷积神经网络子模块接收x_i，对x_i进行集成，得到集成后的搜索区域特征随后第一回归分支先将作为卷积核，将作为被卷积区域，进行卷积操作得到初始模板的回归互相关响应而后将作为卷积核，将作为被卷积区域，进行卷积操作得到初始模板的回归互相关响应最后第一回归分支输出和到响应融合模块；

响应融合模块是一个卷积神经网络，与互相关响应模块和目标框输出模块相连；该模块由两个平行的神经网络分支：第二分类分支和第二回归分支组成；第二分类分支从第一分类分支接收两个分类互相关响应和将和在通道维度上进行堆叠，生成分类堆叠响应，随后对分类堆叠响应进行分类融合，得到分类融合响应将发送给目标框输出模块；第二回归分支从第一回归分支接收两个回归互相关响应和将和在通道维度上进行堆叠，生成回归堆叠响应，随后对回归堆叠响应进行回归融合，得到回归融合响应将发送给目标框输出模块；

目标框输出模块与响应融合模块相连；目标框输出模块由两个平行的神经网络分支：第三分类分支和第三回归分支组成；第三分类分支从第二分类分支接收分类融合响应对进行响应分类，得到响应分类的结果的尺寸为22×22×2k，其中k为区域建议网络RPN中的锚框个数，2k的含义是有k个锚框且每个锚框对应2个分类值，2个分类值分别表示该锚框中图像是目标和不是目标的概率；第三回归分支从第二回归分支接收回归融合响应对进行响应回归后，得到响应回归的结果的尺寸为22×22×4k；4k的含义是有k个锚框且每个锚框对应4个回归值：dx、dy、dw、dh，分别表示对应的原始锚框的x、y坐标以及长、宽的修正值；目标框输出模块选取分类结果中是目标概率最大的锚框作为目标预测框，并将该锚框对应的回归结果中的四个修正值取出，用于修正该锚框的位置和大小，修正后的锚框即为目标的跟踪框；

第二步，准备目标跟踪系统的训练数据集，训练数据集分两部分：第一训练数据集T₁和第二训练数据集T₂，方法为：

2.1从VID和YTB中选取100000个正样本对，方法是：对VID和YTB的每个视频序列进行采样，从同一视频序列中随机选取一帧作为模板图像，然后在模板图像后不超过一百帧的范围内随机选取一帧作为搜索区域图像，将这样选出的两张图像作为1个正样本对，用这种采样方式生成100000个正样本对；VID和YTB为视频数据集，每个视频中都包含一个特定的目标，且每个视频帧都有目标框标注，标注为一个矩阵框的左上角点的坐标以及矩形框的长宽，矩形框即框出了目标位置；

2.2从VID和YTB中选取100000个负样本对，方法是：从VID和YTB的某一视频序列中随机选取一帧作为模板图像，并从另一段视频序列中随机选取一帧作为搜索区域图像，将这样选出的两张图像作为1个负样本对；按这种采样方式生成100000个负样本对；

2.3从DET和COCO中选取100000个正样本对，方法是：从DET和COCO中随机选取同一物体中不同的两张图像作为1个正样本对，按这种采样方式生成100000个正样本对；正样本对中一个样本作为模板图像，另一个样本作为搜索区域图像；DET和COCO为目标检测数据集，包含目标框标注；

2.4从DET和COCO中选取100000个负样本对，方法是：

2.4.1从DET和COCO中选择同类但不是同一物体的两个物体各一张图像，一个作为模板图像，另一个作为搜索区域图像，得到1个负样本对；用这种采样方式生成50000个负样本对；

2.4.2从DET和COCO中选择不同类的两个不同物体各一张图片，一个作为模板图像，另一个作为搜索区域图像，得到1个负样本对；用这种采样方式生成50000个负样本对；

2.5将所有正负样本对中的模板图像缩放成127×127×3的大小，将所有搜索区域图像缩放成287×287×3的大小；将缩放后的所有正负样本对作为T₁；

2.6选择GOT-10k的训练集作为T₂；

第三步，使用训练数据集训练目标跟踪系统，具体方法是：

3.1使用在ImageNet上预训练好的AlexNet网络参数对特征提取模块的参数进行初始化，并使用Kaiming初始化方法对互相关响应模块、响应融合模块和目标框输出模块的参数进行初始化；

3.2使用T₁对特征提取模块、互相关响应模块和目标框输出模块进行训练，方法为：

3.2.1设置训练迭代总轮数为50，并初始化epoch＝1；初始化数据批量输入大小batchsize＝128；初始化学习率lr＝0.01，并设置最后一轮的学习率为lr＝0.0005，在训练中学习率以指数的方式衰减，初始化超参数λ为1.2；定义T₁中的样本个数为Len(T₁)；

3.2.2采用T₁对特征提取模块、互相关响应模块和目标框输出模块进行训练，将训练更新后的卷积神经网络子模块、互相关响应模块和目标框输出模块的参数作为卷积神经网络子模块、互相关响应模块和目标框输出模块网络中的参数；

3.3将T₂的所有视频帧都输入到卷积神经网络子模块和互相关响应模块中，并保存T₂的每一个视频帧的输出：分类模块的初始模板响应融合模板响应和GT响应和回归模块的初始模板响应预测模板响应和GT响应将T₂的每一个视频帧对应的分类和回归的六个响应作为第三训练数据集T₂′；

3.4使用T₂′对响应融合模块进行训练，将训练得到的响应融合模块参数作为最终响应融合模块的网络参数；

第四步，利用训练好的目标跟踪系统进行目标跟踪，方法是：

4.1从相机实时获取视频流I₀,…,I_i,…,I_N，目标跟踪系统依次对每一帧进行处理；其中I_i为这段视频中的第i帧，N为视频总帧数；初始化变量i＝1；

4.2特征提取模块从第1帧I₀中获取目标图像Z₀，并对Z₀进行特征提取，得到初始模板特征z₀；

4.3若i＝1，令转4.6；若i1，转4.4；

4.4使用特征提取模块对Z_i-1进行特征提取，得到第i-1帧的跟踪结果特征z_i-1；

4.5特征提取模块的线性融合子模块使用初始模板z₀、第i-1帧跟踪时使用的融合模板和第i-1帧跟踪结果z_i-1融合生成第i帧跟踪使用的融合模板特征

4.6特征提取模块以Z_i-1在I_i-1中的中心坐标为中心，在I_i上选取目标搜索区域X_i，并对X_i进行特征提取，得搜索区域特征x_i；

4.7互相关响应模块从特征提取模块接收z₀、和x_i，第一分类分支先对z₀和x_i进行处理，得到初始模板分类响应随后第一分类分支对和x_i进行处理，得到融合模板分类响应第一回归分支先对z₀和x_i进行处理，得到初始模板回归响应随后第一回归分支对和x_i进行处理，得到融合模板回归响应

4.8响应融合模块接收和使用第二分类分支对和进行融合，得到分类融合响应使用第二回归分支对和进行融合，得到回归融合响应

4.9目标框输出模块接收和其中第三分类分支对进行处理，得到分类结果维度为22×22×2k，其中k为锚框个数，22×22×2k表示22×22的每个点上有k个锚框，且每个锚框对应2个分类值，每个锚框的2个分类值分别表示该锚框是目标和不是目标的概率；第三回归分支对进行处理，得到回归结果维度为22×22×4k，22×22×4k表示22×22的每个点上有k个锚框，且每个锚框对应4个回归值dx、dy、dw和dh，这4个值分别表示锚框到实际目标框的中心位置坐标x、y的修正值和长、宽的修正值；

4.10第三分类分支对分类结果进行统计，得到目标概率最大的那个锚框(x,y,w,h)，其中x、y表示该锚框中心点在原始图像中的坐标，w、h表示该锚框的长和宽；

4.11第三回归分支在回归结果中找到与锚框(x,y,w,h)相对应的修正值(dx,dy,dw,dh)，使用修正值对该锚框进行修正，修正公式为：

得到的即为目标框，为目标框的中心坐标，为目标框的长和宽；使用目标框可以得到第i帧的目标图像Z_i，Z_i即为第i帧的跟踪结果；

4.12若iN，令i＝i+1，转4.4；若i＝＝N，转4.13；

4.13得到视频序列所有帧的跟踪结果Z₀,Z₁,…,Z_N，结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011524190.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于双模板响应融合的目标跟踪方法有效

专利文献下载