[发明专利]一种基于改进的深度残差网络的人体行为识别方法在审
申请号: | 202310221454.0 | 申请日: | 2023-03-09 |
公开(公告)号: | CN116229323A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 罗仁泽;刘恒;林虹宇;吴涛;曹瑞;雷璨如;易玺;廖波;赵丹;王清松;谭亮 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/774;G06V10/80;G06V10/77;G06V10/82;G06N3/048;G06N3/08;G06N3/084;G06V10/764;G06N3/047;G06N3/0464 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 网络 人体 行为 识别 方法 | ||
本发明公开了一种基于改进深度残差网络的人体行为识别方法。包括训练阶段和测试阶段:在训练阶段,使用摄像头获取图像数据集,使用分段采样的稀疏采样策略提取训练视频的原始帧,将提取的原始帧送入通道注意力机制改进深度残差网络的进行训练;在测试阶段,提取测试视频的原始帧,送入训练得到的改进深度残差网络模型,通过softmax分类器判断出最终的行为类别。本发明方法能够根据特征通道的重要程度对重要特征进行增强,对不重要的特征进行抑制,从而提高模型对输入数据的特征提取能力。本发明网络具有较高的运行速度和较高的行为识别准确率以及较低的网络复杂度,特别是在一些复杂动作和较难识别动作中能够提取有效特征具有较好的表现。
技术领域
本发明属于计算机技术领域,尤其是行为识别技术领域,涉及一种对视频人体行为进行识别的方法,特别是一种基于改进的深度残差网络的行为识别方法。
背景技术
行为识别是视频理解技术中的一个基础方向,其核心技术是通过学习序列帧图像的特征信息,使计算机对视频内目标的行为进行分类,从而达到识别的目的,常用于人机交互、监护智能机器人。视频数据中目标的行为识别通常是存在时间依赖性的,不仅包括每帧图像中的空间信息,也包含帧与帧之间的时间信息,如老人跌倒、搬运物品等行为。
近几年,行为识别技术的主流方法还是基于二维卷积的网络模型和基于三维卷积的网络模型。Simonyan K等人(Simonyan K,Zisserman A.Two-stream convolutionalnetworks for action recognition in videos[J].Advances in neuralinformationprocessing systems,2014,27.)使用二维卷积构建双流网络,使用光流和RGB图片进行行为识别。Tran D等人(Tran D,Bourdev L,Fergus R,et al.Learningspatiotemporal features with 3d convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:4489-4497.)将二维卷积延时间维度膨胀成三维卷积,构建C3D网络用于行为识别。PanT等人(Pan T,Song Y,Yang T,et al.Videomoco:Contrastive video representation learning with temporallyadversarial examples[C]//Proceedings of the IEEE/CVF Conference onComputerVision and Pattern Recognition.2021:11205-11214.)将二维残差网络使用三维卷积重新构建成了3D-Resnet18网络用于行为识别。Pan T等人(Pan T,Song Y,Yang T,et al.Videomoco:Contrastive video representation learning with temporallyadversarial examples[C]//Proceedings of the IEEE/CVF Conference onComputerVision and Pattern Recognition.2021:11205-11214.)将三位卷积使用一维时间卷积和二维空间卷积代替,构建了R(2+1)D网络用于行为识别。Qiu Z等人(Qiu Z,Yao T,Mei T.Learning spatio-temporal representation with pseudo-3d residualnetworks[C]//proceedings of the IEEE International Conference onComputerVision.2017:5533-5541.)探索了几种不同的一维时间卷积和二维空间卷积组合代替三位卷积方式,构建了P3D网络用于行为识别。Kopuklu O等人(Kopuklu O,Kose N,Gunduz A,et al.Resource efficient 3d convolutional neural networks[C]//Proceedings of the IEEE/CVF International Conference on Computer VisionWorkshops.2019:0-0.)将各种众所周知的资源高效二维神经网络转换为三维神经网络,构建了3D-SqueezeNet网络用于行为识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310221454.0/2.html,转载请声明来源钻瓜专利网。