[发明专利]一种基于运动历史图像的视频目标检测方法在审
申请号: | 201910901854.X | 申请日: | 2019-09-24 |
公开(公告)号: | CN110705412A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 李韩玉;蔡强;余乐;李海生;颜津 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频目标 运动历史 图像 检测 视频帧序列 卷积神经网络 准确度 对视频帧 关联信息 模型提供 模型训练 特征提取 特征信息 边界框 分类器 候选框 视频帧 残差 构建 算法 融合 回归 网络 | ||
1.一种基于运动历史图像的视频目标检测方法,其特征在于,包括以下步骤:
步骤(1)本发明使用了大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集,该数据集中包含了30个类别,且训练集和验证集已经被全部标注并完成了所有的视频片段的切帧操作;
步骤(2)输入视频帧序列,记为Ii{i=1,2,3,...,p}(56<p<458);采用计算机视觉库Opencv中的读图片的方法读取输入的视频帧Ii,得到视频帧的矩阵表示im_datai;
步骤(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net,将步骤(2)中得到的视频帧的矩阵表示im_datai,输入到特征提取网络feat1_net中,得到该视频帧的特征图im_feati;
步骤(4)提取每一帧视频的运动历史图像MHIi{i=1,2,3,...,p}(56<p<458),
其中,t表示当前运动的时刻,(x,y)代表图像中的一个像素点,τ为视频的持续时间,σ为衰退算子,δ为设定的阈值,用来判断两个视频帧目标之间是否发生了运动,根据运动的幅度更新运动历史图像。为相邻视频帧之间的差值,
步骤(5)采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络feat2_net,对运动历史图像MHIi进行特征提取操作;首先采用计算机视觉库Opencv中的读图片的方法读取运动历史图像MHIi,得到运动历史图像的矩阵表示MHI_datai;将MHI_datai输入到feat2_net中,得到运动历史图像的特征图MHI_feati;
步骤(6)将视频帧的特征图im_feati和运动历史图像的特征图MHI_feati进行融合,得到特征图base_feat;
步骤(7)在base_feat上滑动一个以f×f为卷积核的卷积网络,输出一个长度为n维的全连接特征,将得到的特征分别送入到两个全连接层,分别生成k个候选框的坐标和候选框中包含目标的概率;采用非极大值抑制的方法,对候选框进行筛选,得到前m个候选框;
步骤(8)将步骤(6)中得到的base_feat和步骤(7)中的到的m个候选框输入到ROI池化层进行池化操作,得到m个相同大小的特征图;将得到的特征图输入到Resnet101的92到101层网络中,网络的前9层为卷积网络,最后一层为全连接层,实现目标分类以及目标边界框的坐标预测。
2.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(2)和步骤(5)中,采用的计算机视觉库opencv中cv2.read()的方法读取图片,具体实现分别为im_data=cv2.read(Ii)和MHI_datai=cv2.read(MHIi)。
3.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(4)中,设置δ=32,得到的运动历史图像包含了较多运动目标的信息。将运动历史图像应用于视频目标检测的过程中,对每一个视频帧的运动历史图像进行提取,既保留了视频帧与帧之间的时序信息,同时也保留了目标的运动信息。
4.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(6)中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法,base_feat=torch.cat([im_feat,MHI_feat],1),公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接。
5.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法,其特征在于:所述步骤(7)中,设置f=3,n=256,m=1200,即卷积网络的卷积核为3×3,输出的全连接特征长度为256维。非极大值抑制方法的实现是根据候选框中含有目标的概率对候选框排序,选取前1200个候选框作为后续网络输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901854.X/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序