[发明专利]一种基于双流卷积网络的视频中人体行为识别方法在审
申请号: | 201911132228.5 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110909658A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 邓毅彪;蔡强;李海生;毛典辉;颜津 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 卷积 网络 视频 人体 行为 识别 方法 | ||
本发明公开了一种基于双流卷积网络的视频中人体行为识别方法,涉及计算机视觉领域。本发明的目的是识别出视频片段中出现的人体行为。本发明包括:将视频片段预处理成连续的视频帧;对视频帧进行稀疏采样;将采样到的视频帧输入到所设计的行为识别网络模型中,利用卷积操作初步提取卷积特征;然后将特征向量同时输入空间流分支和时间流分支,分别提取视频的空间外观特征和时序运动特征;将两种特征融合后输入分类器中,得到视频片段中人体行为的识别结果。本发明利用卷积网络预测光流场,节省了大量的计算时间和存储空间,并融合了视频的外观特征和运动特征,利用两种特征信息互补来表征人体行为,提高识别的性能。
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于双流卷积网络的视频中人体行为识别的方法。
背景技术
视频中人体行为识别作为计算机视觉领域的一个重要研究方向,已经被广泛用于诸多实际应用场景中,如智能监控、智能家居、视频检索等,近年来受到了国内外学者的广泛关注,涌现出了大量的人体行为识别方法,但由于人体行为的非刚性、复杂性以及视频的视角变换、遮挡、光照变化等因素,目前的人体行为识别方法大都存在计算效率较低、识别准确率不足等问题,视频中人体行为仍是计算机视觉领域的热点和难题。
受卷积网络在图像识别领域性能卓越的启发,将卷积神经网络应用于视频人体行为识别领域已成为一种发展趋势。近年来,随着深度学习的迅猛发展,越来越多的基于卷积神经网络的模型被提出,在人体行为识别方法上也得到了广泛的应用。Simonyan等人(SIMONYAN K,ZISSERMAN A. Two-Stream Convolutional Networks for ActionRecognition in Videos[C]// Advances in Neural Information Processing Systems,2014:568-576.)提出了一种双流卷积网络的人体行为识别方法,双流卷积网络分为时间流卷积神经网络和空间流卷积神经网络两个分支,且两个分支具有同样的网络结构。时间流网络需要预先计算光流图像,输入光流图像提取时序特征,空间流网络输入 RGB图像提取空间特征,最后通过分类得分融合得到最终的人体行为识别结果,实验证明了通过计算光流场来提取时序运动特征,对提高视频中的人体行为识别准确率非常有效。尽管双流卷积网络能够取得较高的识别率,但是光流图像的计算成本和存储空间成本太过昂贵,并且难以有效地对长时运动特征建模,在实际场景中无法得到有效的应用,因此设计一种更高效的光流计算方法对时序特征建模尤为重要。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于双流卷积网络的视频中人体行为识别方法,以采用多个2D和3D Inception模块堆叠组成的空间流网络作为空间流分支,提高对视频片段的高层语义信息建模能力,采用光流预测卷积网络作为时间流分支,对相邻特征向量计算梯度,预测特征残差的光流场,降低计算光流场产生的时间和空间成本,并将空间外观特征和时序运动特征信息互补,增强视频中人体行为识别方法对人体行为的表征能力。
本发明技术解决方案:一种基于双流卷积网络的视频中人体行为识别方法,本发明的目的是在视频片段人体行为识别过程中,更快速更准确地获得表示视频片段中出现的人体行为的标签。本发明包括:利用计算机视觉库 OpenCV将视频切分成连续的视频帧,调整成固定尺寸后,采用稀疏采样的方式依次随机选取视频帧,采样的视频帧通过网络底层的卷积操作初步提取卷积特征后,分别输入到空间流分支和时间流分支中提取用来表示视频中人体行为的空间外观特征和时序运动特征,接着将两种特征在通道上进行融合,训练网络模型,确定模型参数,在模型趋于稳定后停止训练,并将测试视频相同预处理后进行输入,经过所述训练好的模型后,得到最终的识别结果。
具体步骤如下:
(1)利用计算机视觉库OpenCV中提取视频帧的方法,从包含人体行为的视频片段中提取连续视频帧,并将视频帧全部处理成尺寸为112*112像素的RGB图像,接着根据视频帧数量平均分成三个部分,依次从三个部分中随机选取8、9、8张图像,组成25张连续视频帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911132228.5/2.html,转载请声明来源钻瓜专利网。