[发明专利]一种第一视角视频动作识别方法及装置在审
申请号: | 202210120923.5 | 申请日: | 2022-02-09 |
公开(公告)号: | CN114596520A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 聂梦真;姜金印 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06K9/62;G06N3/04;G06N3/08;G06V10/80;G06V10/26;G06V10/82 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 陈娟 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 第一 视角 视频 动作 识别 方法 装置 | ||
本发明提供了一种第一视角视频动作识别方法和装置,构建第一视角动作识别的多流网络模型,模型包括卷积神经网络CNN、Transformer网络等。模型采用RGB模态及深度模态,分为三个阶段进行动作分类,通过在ImageNet上预训练的卷积神经网络提取视频帧的双尺度特征,根据不同模态、不同尺度特征图各自的特点,分别采取不同的帧内分割方式,结合相关性计算机制增强空间表征,提高空间语义信息,通过多尺度跨模态融合模块的相互作用,产生交叉模态表示,增强模态间的互相关性;基于注意力机制,提取视频帧间的时序信息;融合经过空间交互增强的双模态数据,有效利用并融合双模态的时空信息,可以达到较好的动作识别效果。
技术领域
本发明属于深度学习、计算机视觉等领域,涉及特征提取、动作识别技术,尤其是一种第一视角视频动作识别方法及装置。
背景技术
基于视频数据的动作识别(Action Recognition)是计算机视觉领域很重要的研究方向,其任务目标是对于未经处理或给定的经过分割的视频片段,根据视频中出现的人类动作完成视频分类任务,该任务在视频安防监控、日常行为识别、行为交互等领域有着广泛的应用价值。
近年来,借助深度学习(Deep Learning)的方法,计算机视觉领域的研究取得了较多进展。卷积神经网络(CNN)有强大的特征提取能力,可以较好的提取出特征图的特征信息。其中,2D的卷积神经网络在图片分类任务上已日臻成熟,将其迁移到视频动作分类任务,将卷积神经网络直接作用于每一帧数据,通过多层卷积网络提取出深度特征,每一帧的特征通过一定方式进行融合,再经过前馈网络,输入到全连接层FC(Full connection)完成分类任务。该方法可以较好地提取视频帧的表征信息,最终的分类结果也由每一帧的表征信息决定。但由于该方法割裂了帧间的时序表达,最终只能在部分任务(视频中的运动信息不易区分,表征信息易于区分)上取得一定的效果,对于需要较好地区分帧间运动信息的数据,缺乏优秀的泛化性能。
计算机视觉领域的图片分类任务是基于二维数据,重点处理帧内的空间信息,在此基础上,视频动作识别任务不仅需要处理各帧的空间语义,还引入了时间维度T代表视频帧之间的时间顺序,任务更加复杂,是目前计算机视觉领域的研究重点。视频分类任务比图像分类任务增加了时序信息,常用3D卷积网络(如将空域的二维卷积与时域的一维卷积结合)同时处理视频片段中的帧内空间信息与相邻帧间的时序信息,在处理视频帧表征信息的同时,考虑了视频中的运动信息,较2D卷积神经网络的方法有了更高的准确率。Inflated3D ConvNet(I3D)方法作为3D卷积网络的一种优化,将经过训练的2D卷积核扩展到3D范畴,可以从大型ImageNet数据集的预训练模型中受益,可以进一步提高模型的准确性,但同时会产生较大的计算损耗。
时空结合的方法是动作识别领域研究的主流方向之一。主要集中于空间信息和时序信息的处理,每一帧的表征数据代表空间信息,比如目标、场景等,帧间的运动表达代表时序信息,比如视频中人和物体的运动、摄像机的运动等。时空网络的方法常使用RGB帧作为处理空间流信息的一路输入,使用多个堆叠的光学帧作为处理时序信息的一路输入,采用双路联合训练,最终将提取到的深层特征进行互补融合,完成分类任务。虽然时空结合能够很好地融合时空信息,但是在处理高复杂度、长时间的视频数据时,分类效果不佳,不能够很好地建模。
长短期记忆网络(LSTM)方法常用于自然语言处理等序列建模问题,适合处理序列数据。考虑到视频帧间较复杂的时序关系,将其迁移到视频动作分类任务,可解决长序列训练过程中的梯度消失和梯度爆炸问题。同时,LSTM方法可以通过门控的方式来控制传输状态,对长时间的序列信息进行建模,在较长的序列数据中可以获得比循环神经网络(RNN)更高的准确率。但是在处理长视频序列任务中,LSTM方法计算复杂度较高,训练难度较大,时序建模的效率较低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210120923.5/2.html,转载请声明来源钻瓜专利网。