[发明专利]一种基于深度学习的流媒体视频识别与检测方法在审

申请号：	202011592568.9	申请日：	2020-12-29
公开（公告）号：	CN112651346A	公开（公告）日：	2021-04-13
发明（设计）人：	谭毓卿;张海林;王兴顺;李沛然;梁珑;展毅晟;芦国云;郭妍;谢占兰;卢涛;冯小霞;张青梅;沈娟;马雅静;刘有文;严隆兴;余国栋;杨品梅;邓蓉	申请（专利权）人：	青海三新农电有限责任公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京天奇智新知识产权代理有限公司 11340	代理人：	陈国发;李雪慧
地址：	810000 青海省西宁市***	国省代码：	青海;63
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习流媒体视频识别检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及深度学习与人工智能领域，特别涉及流视频监测方法。本发明将可变形卷积网络应用到基于one－stage的目标检测网络中，提出多尺度特征融合与可变形卷积的目标检测网络结构，使用可变形的卷积结构代替普通的卷积操作，增加模型对物体几何形变的学习能力，还釆用多尺度特征图进行上釆样与低级特征图融合提取目标位置的技巧，增加模型对小目标物体和密集型物体的检测能力，极大改进了其它目标检测模型在检测精度与速度上的缺陷。

技术领域

本发明涉及深度学习与人工智能领域，特别涉及流视频监测方法。

背景技术

目标检测是计算机视觉领域的一个经典的任务，是进行场景内容分析和理解等高级视觉任务的基本前提。设备巡检中，视频中的目标检测任务更是和业务需求贴近，现实巡检过程中，无人机智能视频监控、机器人导航等应用场景都需要对视频进行处理，对视频中的目标进行检测。视频中的目标检测需要在静态图像目标检测的基础上对目标因运动产生的各种变化进行处理，这是其中的难点。

传统的目标检测方法主要使用方向梯度直方图(Histogram of OrientedGradient，HOG)、尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)特征对滑动窗口进行判别，主要代表方法为部位形变模型(Deformable Part Model，DPM)及其扩展。由于滑动窗口需要大量的计算开销，基于候选窗口的目标检测方法后来居上，目前较通用的候选窗口产生方法包括选择提取(Selective Search)、边缘窗口(Edge-Box)等。

基于视频的目标检测任务相比于静态图像的目标检测任务，目标的外观、形状、尺度等属性会随着目标的运动发生变化，在检测过程中如何保持时间顺序上目标的一致性从而不会使目标在中间某帧丢失，这是视频目标检测任务的主要难点。由于视频比静态图像多了一个时间维度上的信息，所以很多视频目标检测算法利用该信息来增强检测性能。

发明内容

本发明基于YOLO模型对视频中每一帧进行目标检测，然后在使用跟踪算法对目标框进行跟踪，使用跟踪的结果对之前的检测结果进行修正，保证了检测的准确性和鲁棒性。为了实现上述目的，本发明采用以下技术方案：可变形卷积网络应用到基于one－stage的目标检测网络中，打破传统卷积网络中卷积核固定的几何形状，増强卷积结构对图像特征几何变换的建模能力。

用带有偏移的采样代替原来的固定位置，该偏移的偏移量可以通过最终端到端的网络训练得到，不需要额外的特定变换规律的监督。普通的卷积操作用规则的网格R在输入特征映射X上进行采样，并对w加权的采样值求和，其中网格式定义了感受野的大小和扩张。

一个扩张大小为1的3*3卷积核可以定义如公式：

R＝{(-1,-1),(-1,0)(0,1),(1,1)}

对于每个输出Y(Po),都要从X上采样9个位置，这9个位置都在中心位置可向四周扩散得到的规则的网格形状，其中(-1,-1)代表左上角，(1,1)代表右下角。在该卷积下，对于输出特征映射X上的每个位置P。输出特征映射函数P如公式：

Y(Po)＝(Pn')·X(Po+Pn)

变形卷积则支持在原本的上釆样位置上，以同样大小的输出向四周自由扩散,得到不规则形状的釆样点，如公式：

R(Po)＝(Pn)-X(Po+Pn+△Pn)

因为低层卷积特征对图像的位置信息不够敏感，所以在网络结构相对靠后的，需要多尺度特征提取的网络层次上，即res9、resl7和res21层上分别增加了一层可变形的卷积网络结构。目的是为了在特征图上进行目标检测时，除了卷积结构本身对位置信息的贡献外，通过可变形卷积的方式改变釆样点的位置并学习釆样点的偏置，使得采样点位置能够随着图像内容的变化而变化。本发明应用可变形卷积网络提高了目标检测的精度，而且促进模型自己学习几何变换能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青海三新农电有限责任公司，未经青海三新农电有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011592568.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种蚕丝织物的抗菌整理方法
下一篇：并发资源的处理方法、装置和电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的流媒体视频识别与检测方法在审

专利文献下载