[发明专利]一种基于双通道卷积神经网络的视频在线行为检测方法在审
申请号: | 201811317221.6 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109447014A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 陆生礼;庞伟;向丽苹;范雪梅;舒程昊;梁彪 | 申请(专利权)人: | 东南大学-无锡集成电路技术研究所;东南大学;南京三宝科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 施昊 |
地址: | 214135 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测框 置信 行为检测 双通道 卷积神经网络 视频在线 光流图 卷积核 轻量 行为检测结果 空间特征 融合模块 生成模块 时序特征 图片生成 图片输入 图片序列 在线动作 网络 光流 视频 融合 学习 图片 | ||
本发明公开了一种基于双通道卷积神经网络的视频在线行为检测方法。首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。本发明通过设计轻量双卷积核SSD网络,大幅度简化了深度学习网络,提高了行为检测效率。
技术领域
本发明属于计算机视觉领域,特别涉及了一种基于双通道卷积神经网络的视频在线行为检测方法。
背景技术
智能视频分析是目前计算机视觉领域非常热门,也是极具挑战力的一个方向,可以被应用在很多场景下。智能视频分析方向包含众多的子研究方向,其中主要的两个研究方向为行为识别和行为检测。行为识别类似于图像的分类,主要解决“视频中的行为是什么”的问题,给出一段只包含一个行为动作的修剪视频,要求给视频分类。而行为检测(或定位)与目标检测一致,主要解决“视频中是否有相应的行为发生,如果有,则发生在视频帧序列的哪一段和在每一帧的什么位置”的问题,这主要分两步完成,一是类似于目标检测中的候选区域提取,这步主要是从视频中找出可能含有动作的视频段;二是对该视频段进行分类。
行为分类研究在深度学习出现之前,表现最好的算法是iDT算法,其思路是利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4中的特征,其中HOF是基于灰度图计算,另外几个均基于密集光流计算。再利用Fisher Vector方法对特征进行编码。最后基于编码训练结果训练SVM,随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习出来后,实现了从特征提取到分类的端到端解决方案。Du Tran等人在二维的卷积核中引入时间维度,用三维的卷积核处理视频,实现端到端的训练。网络结构简单且速度快。因为视频除了空间维度外,最大的难点在于时间序列问题,基于RNN网络能很好处理序列问题,Du Wenbin等人提出的基于RNN的网络算法引入姿态监督的机制,提高了视频分类的效果。行为检测任务因为更贴近生活,在监控安防中有巨大的潜在价值。行为检测中最大的问题在于如何定位存在行为动作的视频段,过去的行为检测方法多采用滑动窗口法,然而基于滑动窗口法的动作定位非常耗时,时间效率低。
发明内容
为了解决上述背景技术提出的技术问题,本发明旨在提供一种基于双通道卷积神经网络的视频在线行为检测方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于双通道卷积神经网络的视频在线行为检测方法,首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。
进一步地,所述光流图片序列生成模块生成的光流图与原RGB图的大小相等。
进一步地,所述轻量双卷积核SSD网络是通过将轻量双卷积核网络作为SSD的基网络而形成的;所述轻量双卷积核网络包含深度可分离卷积和两个模型收缩超参数:宽度乘法器α和分辨率乘法器ρ;所述深度可分离卷积将标准卷积分解成深度卷积和逐点卷积,深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到输出;所述宽度乘法器α∈(0,1],通过宽度乘法器α将某一层的输入通道数M和输出通道数N改变为αM和αN,实现网络的薄化;所述分辨率乘法器ρ∈(0,1],通过设置分辨率乘法器ρ来调节输入分辨率的大小,实现网络的薄化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学-无锡集成电路技术研究所;东南大学;南京三宝科技股份有限公司,未经东南大学-无锡集成电路技术研究所;东南大学;南京三宝科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811317221.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子信息识别系统
- 下一篇:一种处理表格图片中框选文字的方法及装置