[发明专利]一种基于金字塔卷积的视频目标跟踪方法在审
申请号: | 202010932565.9 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112184752A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 张斌;安宁;徐雪丽;邓米克;肖创柏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/20 | 分类号: | G06T7/20;G06T7/70 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 金字塔 卷积 视频 目标 跟踪 方法 | ||
1.一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述方法包括以下步骤:
步骤S1,选择视觉目标跟踪训练集,根据图像中跟踪目标的位置和大小,裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像,将目标模板图像和搜索区域图像组成的图像对构成训练数据集;
步骤S2,搭建基于金字塔卷积的全卷积孪生网络,所述基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络,分别提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络,两个分支网络都是基于金字塔卷积的卷积神经网络,将提取到的目标模板图像的特征图与搜索区域图像的特征图做互相关运算,得到对应的得分响应图;
步骤S3,使用构建好的训练数据集,训练基于金字塔卷积的全卷积孪生网络,获得训练好的基于金字塔卷积的全卷积孪生网络;
步骤S4,使用训练好的基于金字塔卷积的全卷积孪生网络计算待测图像序列中图像的得分图,基于得分图进行目标跟踪定位。
2.如权利要求1所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤S1中,使用ILSVRC2015数据集。
3.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤(2)中,全卷积孪生网络包括两个分支网络,分别是:a)以目标模板图像Z做为输入的目标分支网络;b)以搜索区域图像X做为输入的搜索分支网络,两个分支的主干网络结构相同、参数共享,使用Φ(Z)和Φ(X)分别表示目标分支和搜索分支输出的特征图,将Φ(Z)做为卷积核在Φ(X)上进行互相关运算,得到嵌有两个分支信息的得分响应图R,两个分支都是将基于金字塔卷积的AlexNet网络做为主干网络,目标模板图像Z输入主干网络后,通过Conv1得到第一层的特征图,接着通过Pool1、金字塔卷积模块得到第二层的特征图,最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图;搜索区域图像X输入主干网络后,通过Conv1得到第一层的特征图,接着通过Pool1、金字塔卷积模块得到第二层的特征图,最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图。
4.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤S2中,金字塔卷积模块在多个卷积核尺度上对输入信息进行处理,包含一个核金字塔,每一层包含不同类型的卷积核,提取到不同尺度的细节信息。
5.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤(3)中,构建的损失函数计算公式如下:
l(y[u],v[u])=log(1+exp(-y[u]×v[u]))
其中,L(y,v)为得分响应图的损失函数,l(y,v)为得分响应图中每个点对应的损失函数,D表示得分响应图中所有点的集合;u为得分响应图中的样本点;c为得分响应图的中心位置;R为得分响应图对应的半径值;y∈{+1,-1}为样本点对应的真值标签,当样本点u位于以c为中心的半径R范围内时,y的值为+1,否则y的值为+1;v[u]为得分响应图中u点对应的得分值。
6.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤S4的过程如下:
1)根据待测图像序列初始帧中目标的位置和大小,裁剪出初始帧图像的目标模板图像,图像尺寸为127×127,将初始帧图像的目标模板图像输入到训练好的基于金字塔卷积的全卷积孪生网络的目标分支网络中,获得初始帧图像的目标模板图像的特征图,t=2;
2)根据待测图像序列第t-1帧中目标的位置和大小,裁剪出第t帧图像的搜索区域图像,图像尺寸为255×255,将第t帧图像的搜索区域图像输入到训练好的基于金字塔卷积的全卷积孪生网络的搜索分支网络中,获得第t帧搜索区域图像的特征图;
3)将第t-1帧图像的目标模板特征图与第t帧图像的搜索区域图像特征图进行互相关运算,得到第t帧的得分响应图R;
4)根据第t帧的得分响应图计算出目标在第t帧图像中的位置;
5)令t=t+1,重复执行步骤2)到步骤5),直到结束待测图像序列的目标跟踪过程,即t=N,其中,N为待测视频序列的总帧数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010932565.9/1.html,转载请声明来源钻瓜专利网。