[发明专利]基于3D卷积孪生神经网络和模板更新的目标跟踪方法有效
申请号: | 202110656004.5 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113379787B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 鲁晓锋;王轩;王正洋;柏晓飞;李小鹏;李思训;刘家铭;邹振华;黑新宏;姬文江 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06T7/20 | 分类号: | G06T7/20;G06N3/0464;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王敏强 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 孪生 神经网络 模板 更新 目标 跟踪 方法 | ||
1.基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1、训练神经网络,由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板;
步骤2、对于当前跟踪任务进行到的时刻t对应的视频序列图片,以时刻t-1所得到跟踪结果为中心截取出不同尺寸的搜索区域,再以目标模板为卷积核对搜索区域进行卷积运算得到响应图;
步骤3、根据步骤2得到响应图,计算出响应图的APCE参数,如果达到阈值则说明跟踪效果较好,根据t时刻跟踪结果在t时刻对应视频序列中的图片上截取出目标图片,存入可靠集合V;
步骤4、如果可靠集合V存满,即长度为2,则将可靠集合V中保留的跟踪结果与步骤1中的初始目标模板共同传入3D孪生神经网络的模板分支得到混合了三帧目标信息的更新模板;
步骤5、使用混合后的更新模板对t+1时刻对应的视频序列中的图片继续跟踪任务,生成t+1时刻的响应图;
步骤6、再计算出步骤5得到的响应图的APCE参数判断是否保留,若保留则将可靠集合V中最老的图片进行替换,不断重复以上步骤直至跟踪结束,最终得到整个视频的跟踪结果,生成视频序列中每一帧图片中目标的位置信息,完成跟踪任务。
2.根据权利要求1所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤1采用3D卷积神经网络结构,3D卷积神经网络结构共分为五层,每层分别由卷积层和池化层组成,3D卷积神经网络结构的卷积核尺寸分别为:
第一层:1*11*11;
第二层:1*5*5;
第三层:1*3*3;
第四层:1*3*3;
第五层:3*3*3。
3.根据权利要求2所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤1训练过程使用GOT-10K数据集,从一个视频序列中随机抽取8对图片,然后进行数据增强,具体过程如下:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,如果图片不够大,填充部分使用线性插值法,填充后再进行裁剪;接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,同样,如果原图片不够大则先使用线性插值法填充后再进行裁剪;最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、经过步骤1.1后训练图片成为最终的训练数据,这些训练数据对的尺寸为127*127*3与255*255*3,在随机采样时会选取一个随机帧加上其前一帧与该视频序列第一帧以此模拟实际跟踪时的情形,将这三张处理后的127*127*3的图片进行堆叠得到尺寸为3*3*255*255的输入数据,在传入神经网络后最终得到模板其尺寸为6*6*128;
步骤1.3、将对应的255*255*3的训练图片传入神经网络最终得到22*22*128的特征图,此时使用模板作为卷积核对该特征图进行卷积,最终得到尺寸为17*17*1的响应图;
步骤1.4、训练过程中的损失函数使用交叉熵损失,损失函数公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表最终响应图中每个像素点的实际取值,y代表该像素点的标签;
步骤1.5、在实际的训练过程中按照所有侯选位置的平均训练损失值计算损失其公式如下:
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D就是网络输出的最后的分数图;
步骤1.6、计算出交叉熵损失后,使用梯度下降法进行参数优化,SGD方法的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))
以此可得到最优参数θ;
步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下,则训练过程结束;
在跟踪任务的开始时,需要进行目标模板的初始化,矩形框BOX包括目标的中心点坐标和宽高数据,根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络,其输出尺寸为256x6x6的目标特征图,即模板,在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络,模板生成的计算公式如下:
其中,z表示视频序列第一帧中按照矩形框BOX数据所截取出的目标图片,表示3D孪生神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110656004.5/1.html,转载请声明来源钻瓜专利网。