[发明专利]一种基于运动历史图像的视频目标检测方法在审

申请号：	201910901854.X	申请日：	2019-09-24
公开（公告）号：	CN110705412A	公开（公告）日：	2020-01-17
发明（设计）人：	李韩玉;蔡强;余乐;李海生;颜津	申请（专利权）人：	北京工商大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100048***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频目标运动历史图像检测视频帧序列卷积神经网络准确度对视频帧关联信息模型提供模型训练特征提取特征信息边界框分类器候选框视频帧残差构建算法融合回归网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于运动历史图像的视频目标检测方法，其特征在于，包括以下步骤：

步骤(1)本发明使用了大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集，该数据集中包含了30个类别，且训练集和验证集已经被全部标注并完成了所有的视频片段的切帧操作；

步骤(2)输入视频帧序列，记为I_i{i＝1，2，3，...，p}(56＜p＜458)；采用计算机视觉库Opencv中的读图片的方法读取输入的视频帧I_i，得到视频帧的矩阵表示im_data_i；

步骤(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net，将步骤(2)中得到的视频帧的矩阵表示im_data_i，输入到特征提取网络feat1_net中，得到该视频帧的特征图im_feat_i；

步骤(4)提取每一帧视频的运动历史图像MHI_i{i＝1，2，3，...，p}(56＜p＜458)，

其中，t表示当前运动的时刻，(x，y)代表图像中的一个像素点，τ为视频的持续时间，σ为衰退算子，δ为设定的阈值，用来判断两个视频帧目标之间是否发生了运动，根据运动的幅度更新运动历史图像。为相邻视频帧之间的差值，

步骤(5)采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络feat2_net，对运动历史图像MHI_i进行特征提取操作；首先采用计算机视觉库Opencv中的读图片的方法读取运动历史图像MHI_i，得到运动历史图像的矩阵表示MHI_data_i；将MHI_data_i输入到feat2_net中，得到运动历史图像的特征图MHI_feat_i；

步骤(6)将视频帧的特征图im_feat_i和运动历史图像的特征图MHI_feat_i进行融合，得到特征图base_feat；

步骤(7)在base_feat上滑动一个以f×f为卷积核的卷积网络，输出一个长度为n维的全连接特征，将得到的特征分别送入到两个全连接层，分别生成k个候选框的坐标和候选框中包含目标的概率；采用非极大值抑制的方法，对候选框进行筛选，得到前m个候选框；

步骤(8)将步骤(6)中得到的base_feat和步骤(7)中的到的m个候选框输入到ROI池化层进行池化操作，得到m个相同大小的特征图；将得到的特征图输入到Resnet101的92到101层网络中，网络的前9层为卷积网络，最后一层为全连接层，实现目标分类以及目标边界框的坐标预测。

2.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(2)和步骤(5)中，采用的计算机视觉库opencv中cv2.read()的方法读取图片，具体实现分别为im_data＝cv2.read(I_i)和MHI_data_i＝cv2.read(MHI_i)。

3.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(4)中，设置δ＝32，得到的运动历史图像包含了较多运动目标的信息。将运动历史图像应用于视频目标检测的过程中，对每一个视频帧的运动历史图像进行提取，既保留了视频帧与帧之间的时序信息，同时也保留了目标的运动信息。

4.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(6)中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法，base_feat＝torch.cat([im_feat，MHI_feat]，1)，公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接。

5.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(7)中，设置f＝3，n＝256，m＝1200，即卷积网络的卷积核为3×3，输出的全连接特征长度为256维。非极大值抑制方法的实现是根据候选框中含有目标的概率对候选框排序，选取前1200个候选框作为后续网络输入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工商大学，未经北京工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910901854.X/1.html，转载请声明来源钻瓜专利网。

上一篇：指纹识别方法及装置、设备、存储介质
下一篇：基于视线方向和LSTM神经网络的情感预测方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于运动历史图像的视频目标检测方法在审

专利文献下载