[发明专利]一种基于YOLOv3的视频目标检测方法在审

申请号：	201910548173.X	申请日：	2019-06-24
公开（公告）号：	CN110363100A	公开（公告）日：	2019-10-22
发明（设计）人：	刘辉;杨旭	申请（专利权）人：	昆明理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06T7/246;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频目标网络单元卷积检测计算机视觉技术卷积神经网络标签分类传统检测检测问题目标检测使用检测手工特征输入图像特征替代特征网络特征选择提取特征图像定义中心坐标特征图小目标预测视觉融合学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于YOLOv3的视频目标检测方法，属于目标检测和计算机视觉技术领域。首先使用检测的图像定义视觉任务。利用特征网络对输入图像提取特征，得到一定尺寸的特征图，例如13*13，然后将输入分成13*13个网络单元，然后如果groundtruth中某个物体的中心坐标落在那个网络单元中，那么该网络单元来预测该物体。通过YOLOLv3采用多标签分类和多个规模融合的方式做预测本发明结合深度学习卷积神经网络思想，利用卷积特征替代传统手工特征，避免了传统检测问题中特征选择问题。深层卷积特征具有更好的表达能力同时解决了视频目标检测问题提供了更加泛化和简洁的解决思路。对于小目标检测效果提升有显著的效果。

技术领域

本发明涉及一种基于YOLOv3的视频目标检测方法，属于目标检测和计算机视觉技术领域。

背景技术

视频目标检测技术是智能化视频分析的基础。目前几种常用的视频目标检测方法简介如下：背景减除、时间差分、光流。

背景减除(Background Subtraction)方法是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据，但对于动态场景的变化，如光线照射情况和外来无关事件的干扰等也特别敏感。实际上，背景的建模是背景减除方法的技术关键。最简单的背景模型是时间平均图像，即利用同一场景在一个时段的平均图像作为该场景的背景模型。由于该模型是固定的，一旦建立之后，对于该场景图像所发生的任何变化都比较敏感，比如阳光照射方向，影子，树叶随风摇动等。大部分的研究人员目前都致力于开发更加实用的背景模型，以期减少动态场景变化对于运动目标检测效果的影响。

时间差分(Temporal Difference又称相邻帧差)方法充分利用了视频图像的特征，从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像，若仔细对比相邻两帧，可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。我们利用连续的图像序列中两个或三个相邻帧之间的时间差分，并且用阈值来提取出视频图像中的运动目标的方法。我们采用三帧差分的方法，即当某一个像素在连续三帧视频图像上均有相当程度的变化(及大于设定的阈值时)，我们便确定该像素属于运动目标。时间差分运动检测方法对于动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特征像素点，在运动实体内部容易产生空洞现象，只能够检测到目标的边缘。而且，当运动目标停止运动时，一般时间差分方法便失效。

基于光流方法(Optical Flow)的运动检测采用了运动目标随时间变化的光流特性，如Meyer等作者通过计算位移向量光流场来初始化基于轮廓的跟踪算法，从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而，大多数的光流计算方法相当复杂，且抗噪性能差，如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。

当然，在运动检测中还有一些其它的方法，如运动向量检测法，它适合于多维变化的环境，能消除背景中的振动像素，使某一方向的运动对象更加突出的显示出来。但是，运动向量检测法也不能精确地分割出对象。

发明内容

本发明要解决的技术问题是提供一种基于YOLOv3的视频目标检测方法，用于解决视频目标检测特征选择的困难和识别率不高、受深度旋转影响较大、图像中的亮度、对比度的变化和阴影的影响、以及对小目标检测精度不高的问题。

本发明的技术方案是：一种基于YOLOv3的视频目标检测方法，在基本特征提取器中增加了几个卷积层，并用最后的卷积层预测一个三维张量编码：边界框、框中目标和分类预测。再对每个边界框通过逻辑回归预测目标物体的得分，如果预测的这个边界框与真实的边框值大部分重合且比其他所有预测的要好，那么这个值就为1.如果重复比没有达到一个阈值(yolov3中这里设定的阈值是0.5)，那么这个预测的边界框将会被忽略，也就是会显示成没有损失值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910548173.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于局部并行深度神经网络的表情识别方法
下一篇：一种基于CNN特征融合框架的花卉识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于YOLOv3的视频目标检测方法在审

专利文献下载