[发明专利]一种时空卷积注意力网络用于视频中动作识别的方法在审
申请号: | 202111148345.8 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113920581A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 陈翰;罗会兰 | 申请(专利权)人: | 江西理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 温州知远专利代理事务所(特殊普通合伙) 33262 | 代理人: | 汤时达 |
地址: | 341000 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时空 卷积 注意力 网络 用于 视频 动作 识别 方法 | ||
本发明公开了一种时空卷积注意力网络用于视频中动作识别的方法。具体方法如下:首先,为了获取高级的空间语义特征时序语义特征,本发明设计了两个独立分支网络——空间卷积注意力网络和时序卷积注意力网络。其中,空间卷积注意力网络用于处理视频的RGB信号,使用自注意力方法捕捉视频空间维度的表观特征联系,用一维卷积提取动态信息。时序卷积注意力网络处理视频的光流信号,通过自注意力方法来获取时序维度上帧级特征间的关联信息,用2D卷积学习空间特征。最后,将两个分支网络的输出结果集成计算作为时空卷积注意力网络的识别性能。在UCF101和HMDB51数据集上的实验结果表明本发明算法具有较高的平均准确率。
技术领域
本发明属于计算机视觉领域,涉及对视频数据特征提取模型的改进、视频分类与仿真实现。
背景技术
近年来,人体动作行为识别在计算机视觉领域已经发展为一项研究的热点。该项研究在人机交互、智能监控、视频检索等多个领域都具有十分重要的应用价值。人体动作行为识别的研究目的是,让计算机能够像人一样智能识别出视频中人体正在进行的动作类型。然而,视频动作一般具有环境复杂,视角多变和动作差异性大等多项特点,所以从视频中提取有效的动态特征和外观特征是非常具有挑战性的。
目前基于深度学习的视频中动作识别算法主要是基于2D卷积神经网络和基于3D卷积神经网络两种。2D卷积神经网络能够有效地学习空间特征,但无法捕获时间特征。3D卷积神经网络可以联合学习时空特征,但是由于其参数量较大,导致训练困难且计算成本较高。为此,本文发明了将2D卷积神经网络与自注意力方法结合的神经网络,该网络可以从空间和时序两个维度分别来增强视频的语义信息,以此来提升网络的识别效果。其具体方法如下:首先,为了使用不同的自注意方法增强空间和时序两个维度上的全局信息,本发明设计了两个模块:空间卷积自注意模块和时序卷积自注意模块。接着在50层的残差网络的基础上,将空间卷积自注意模块和时序卷积自注意模块插入到残差网络的第五层后面,用于增强高级特征图的空间特征和时序特征。最后,将两个模块输出的空间特征和时序特征分别输入到各自的分类层中得到相应的分类结果,再通过融合计算将两种分类结果进行融合得到最终的识别准确率。
发明内容
1.发明目的:
本发明的目的是提出一种时空卷积注意力网络用于视频中动作识别的方法。
2.技术方案:
本发明提出一种时空卷积注意力网络用于视频中动作识别的方法。改方法分别通过本发明设计的空间卷积注意力模块和时序卷积注意力模块来计算两种视频数据信号获得最终的动作识别分类。其中空间卷积注意力模块处理RGB信号特征,时序卷积注意力模块处理由TVL1算法计算得到的光流特征。首先,本方法对原始的视频数据进行预处理,使用稀疏取帧的方式对两种信号输入进行采样得到神经网络的输入对象——RGB帧序列和堆叠的光流帧序列。接着使用残差网络ResNet-50前五层卷积层作为基础网络,再使用ResNet-50前五层卷积层对两种输入信号进行特征提取,得到RGB特征图和光流特征图。接着,将空间特征图输入到空间卷积注意力模块中,空间卷积自注意模块具有两个分支,其中一个分支利用横向和纵向的一维卷积滤波器,获得具有不同方向的局部空间特征的特征图,然后采用自注意力机制实现空间特征增强。另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取,最终将增强后的空间特征和时序信息进行相加,得到输出特征。同样,将光流特征图输入到时序卷积注意力模块内,该模块同样具备两种不同的分支,其中注意力分支采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图,然后通过自注意力实现动态特征增强。丰富了模型的动态特征表示能力,空间卷积分支使用2D的空间卷积层对光流特征图进行空间特征的加强提取,接着将两种分支的结果相加。最终使用平均池化方法对将两个模块的输出特征进行下采样处理,处理后的结果输入到网络尾部的分类层中得到不同类别的识别概率分数。模型对两种不同分支网络的识别概率分数进行平均计算得到识别结果。
本发明所述的一种时空卷积注意力网络用于视频中动作识别的方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学,未经江西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111148345.8/2.html,转载请声明来源钻瓜专利网。