[发明专利]基于分级式结构的细粒度视频动作识别方法有效
申请号: | 202110444382.7 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113139467B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 杨旸;杨文涛 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/80;G06V10/82 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 何会侠 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分级 结构 细粒度 视频 动作 识别 方法 | ||
基于分级式结构的细粒度视频动作识别方法,目标是实现视频中的细粒度动作识别,具体为双阶段过程:第一阶段识别某长时序视频中动作所属的大类类别,在此基础上第二阶段识别细粒度动作;具体步骤如下:第一步,数据分级处理及特征提取;第二步,视频表征特征提取;第三步,段间融合、双流融合及预测;第四步,细粒度动作特征提取;第五步,细粒度动作预测分类。本发明应用于细粒度动作分类中,能够有效地对细粒度视频动作完成识别分类。
技术领域
本发明涉及行为识别领域,具体涉及一种基于分级式结构的细粒度视频动作识别方法。
背景技术
行为识别算法是计算机视觉领域的一个基本的研究问题,其主要内容是分析视频中人类的行为,一般是对给定视频中人的动作进行分类。行为识别已应用于生活诸多方面,如社会监控、公共安全、人机交互以及智能家居等。目前已提出了许多行为识别算法,但如何获得更好的视频表征及更细致的细粒度动作识别,依旧是一个具有挑战性的工作。
在深度学习进入行为识别领域之前,表现最好的算法是密集轨迹法DT(DenseTrajectories)[1]和改进密集轨迹法iDT(improved Dense Trajectories)[2]。深度学习应用于行为识别领域的标志性工作是two stream(双流网络)[3]的提出。双流网络将视频处理为空间流(表征目标)和时序流(表征动作),最后对双流融合得到分类结果。TSN(Temporal Segment Networks)[4]网络也是基于空间流时序流双流融合的方式,但它是多个网络并行运行的,最后进行段之间的融合及双流融合。除去双流思想外,3D网络也应用于行为识别中。如C3D(Convolutional 3D)网络[5]提出用3D ConvNets在大规模视频数据集训练来学习视频的时空特征,选取最佳的卷积核的尺寸3*3*3。使用C3D可以同时对外观和运动信息进行建模。另外还有基于骨架的行为识别方法,如利用时空图卷积网络进行行为识别[6]。此算法基于人类关节位置的时间序列表示而对动态骨骼建模,并将图卷积扩展为时空图卷积网络捕捉这种时空的变化关系。而细粒度动作由于在场景、服饰及姿态上都存在较高相似性,上述算法适用性不强,同时细粒度动作分类的算法相对较少。
[1]Heng Wang,Alexander Cordelia Schmid,et al.Action Recognitionby Dense Trajectories.The IEEE Conference on Computer Vision and PatternRecognition(CVPR),2011,Colorado Springs,United States.pp.3169-3176.
[2]Wang H,Schmid C.Action Recognition with ImprovedTrajectories.Proceedings of the 2013 IEEE International Conference onComputer Vision.IEEE,2013.
[3]Simonyan K,Zisserman A.Two Stream Convolutional Networks forAction Recognition in Videos,Advances in neural information processingsystems,2014.
[4]Wang L,Xiong Y,Wang Z,et al.Temporal Segment Networks:Towards GoodPractices for Deep Action Recognition European Conference on Computer Vision2016.
[5]Tran D,Bourdev L,Fergus R,et al.Learning Spatio temporal Featureswith 3D Convolutional Networks.2015IEEE International Conference on ComputerVision(ICCV).
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110444382.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双臂式汽车零件推动机构
- 下一篇:一种水塔的水箱吊装装置及其施工方法