[发明专利]一种第一视角视频动作识别方法及装置在审

专利信息
申请号: 202210120923.5 申请日: 2022-02-09
公开(公告)号: CN114596520A 公开(公告)日: 2022-06-07
发明(设计)人: 聂梦真;姜金印 申请(专利权)人: 天津大学
主分类号: G06V20/40 分类号: G06V20/40;G06K9/62;G06N3/04;G06N3/08;G06V10/80;G06V10/26;G06V10/82
代理公司: 天津盛理知识产权代理有限公司 12209 代理人: 陈娟
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 第一 视角 视频 动作 识别 方法 装置
【说明书】:

发明提供了一种第一视角视频动作识别方法和装置,构建第一视角动作识别的多流网络模型,模型包括卷积神经网络CNN、Transformer网络等。模型采用RGB模态及深度模态,分为三个阶段进行动作分类,通过在ImageNet上预训练的卷积神经网络提取视频帧的双尺度特征,根据不同模态、不同尺度特征图各自的特点,分别采取不同的帧内分割方式,结合相关性计算机制增强空间表征,提高空间语义信息,通过多尺度跨模态融合模块的相互作用,产生交叉模态表示,增强模态间的互相关性;基于注意力机制,提取视频帧间的时序信息;融合经过空间交互增强的双模态数据,有效利用并融合双模态的时空信息,可以达到较好的动作识别效果。

技术领域

本发明属于深度学习、计算机视觉等领域,涉及特征提取、动作识别技术,尤其是一种第一视角视频动作识别方法及装置。

背景技术

基于视频数据的动作识别(Action Recognition)是计算机视觉领域很重要的研究方向,其任务目标是对于未经处理或给定的经过分割的视频片段,根据视频中出现的人类动作完成视频分类任务,该任务在视频安防监控、日常行为识别、行为交互等领域有着广泛的应用价值。

近年来,借助深度学习(Deep Learning)的方法,计算机视觉领域的研究取得了较多进展。卷积神经网络(CNN)有强大的特征提取能力,可以较好的提取出特征图的特征信息。其中,2D的卷积神经网络在图片分类任务上已日臻成熟,将其迁移到视频动作分类任务,将卷积神经网络直接作用于每一帧数据,通过多层卷积网络提取出深度特征,每一帧的特征通过一定方式进行融合,再经过前馈网络,输入到全连接层FC(Full connection)完成分类任务。该方法可以较好地提取视频帧的表征信息,最终的分类结果也由每一帧的表征信息决定。但由于该方法割裂了帧间的时序表达,最终只能在部分任务(视频中的运动信息不易区分,表征信息易于区分)上取得一定的效果,对于需要较好地区分帧间运动信息的数据,缺乏优秀的泛化性能。

计算机视觉领域的图片分类任务是基于二维数据,重点处理帧内的空间信息,在此基础上,视频动作识别任务不仅需要处理各帧的空间语义,还引入了时间维度T代表视频帧之间的时间顺序,任务更加复杂,是目前计算机视觉领域的研究重点。视频分类任务比图像分类任务增加了时序信息,常用3D卷积网络(如将空域的二维卷积与时域的一维卷积结合)同时处理视频片段中的帧内空间信息与相邻帧间的时序信息,在处理视频帧表征信息的同时,考虑了视频中的运动信息,较2D卷积神经网络的方法有了更高的准确率。Inflated3D ConvNet(I3D)方法作为3D卷积网络的一种优化,将经过训练的2D卷积核扩展到3D范畴,可以从大型ImageNet数据集的预训练模型中受益,可以进一步提高模型的准确性,但同时会产生较大的计算损耗。

时空结合的方法是动作识别领域研究的主流方向之一。主要集中于空间信息和时序信息的处理,每一帧的表征数据代表空间信息,比如目标、场景等,帧间的运动表达代表时序信息,比如视频中人和物体的运动、摄像机的运动等。时空网络的方法常使用RGB帧作为处理空间流信息的一路输入,使用多个堆叠的光学帧作为处理时序信息的一路输入,采用双路联合训练,最终将提取到的深层特征进行互补融合,完成分类任务。虽然时空结合能够很好地融合时空信息,但是在处理高复杂度、长时间的视频数据时,分类效果不佳,不能够很好地建模。

长短期记忆网络(LSTM)方法常用于自然语言处理等序列建模问题,适合处理序列数据。考虑到视频帧间较复杂的时序关系,将其迁移到视频动作分类任务,可解决长序列训练过程中的梯度消失和梯度爆炸问题。同时,LSTM方法可以通过门控的方式来控制传输状态,对长时间的序列信息进行建模,在较长的序列数据中可以获得比循环神经网络(RNN)更高的准确率。但是在处理长视频序列任务中,LSTM方法计算复杂度较高,训练难度较大,时序建模的效率较低。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210120923.5/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top