[发明专利]用于中短时视频的从粗到细的行为快速检测与分类方法及系统有效
申请号: | 202010042072.8 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111259790B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 林巍峣;李昱希;徐树公 | 申请(专利权)人: | 上海交通大学;上海大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/82;G06V10/77;G06N3/0455;G06N3/0464 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 中短时 视频 粗到细 行为 快速 检测 分类 方法 系统 | ||
一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。本发明在有效提升分类精度以及定位精度的同时,还能够确保行为检测的运行效率,目标检测的准确率可以达到79.30%,同时平均每一帧的处理时间仅为7.6毫秒。
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统。
背景技术
基于视频的行为检测与识别分类技术是自动将视频中的人物目标进行逐帧定位与跟踪,并结合时空信息对其行为进行识别的技术。现有的视频行为检测技术主要通过逐帧或者逐段地提取出精确的运动空间定位;对逐段的行为定位进行分类;将以上的检测结果沿时域链接形成时空联合的带有行为类别标签的人物轨迹。现有技术虽然有利用深度神经网络提高检测准确度,但其最终分类结果高度依赖于稠密的逐帧检测结果以及时域的连接算法的准确性。因此,针对上述现有技术缺陷,急需一种快速高效的行为检测算法,同时能够通过长时时间信息建模帮助行为识别,又避免稠密但低效的逐帧检测。
发明内容
本发明针对现有技术存在的上述不足,提出一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统,在有效提升分类精度以及定位精度的同时,还能够确保行为检测的运行效率,目标检测的准确率可以达到79.30%,同时平均每一帧的处理时间仅为7.6毫秒。
本发明是通过以下技术方案实现的:
本发明涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。
所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系。
所述的三维卷积神经网络为基于GoogleNet网络卷积核沿时间维度进行重复延伸拓展得到的I3D卷积神经网络。
所述的高维特征向量为:F∈RC×T×H×W,其中:F为高位特征向量构成的网格;T、H、W分别为网格的时间尺度、高度和宽度;C为向量维度。
所述的时域定位是指:对三维网格进行空间平均池化得到一维特征,并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标,再在三维网格上的对应起止区间的相对坐标中进行均匀采样,得到稀疏采样后的二维采样空间特征。
所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率和起止区间的相对坐标。
所述的目标分类是指:将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化,使三维特征变成二维特征,得到行为类别以及行为轨迹的描述参数。
所述的行为类别的描述参数为:c∈[0,1]K,类别描述为一个归一化的K为向量,K为总类别数量,每一维的数值代表属于该行为类别的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;上海大学,未经上海交通大学;上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010042072.8/2.html,转载请声明来源钻瓜专利网。