[发明专利]一种基于双流卷积注意力的动作识别方法有效
申请号: | 202110116862.0 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112926396B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李平;马浩男;曹佳晨;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 卷积 注意力 动作 识别 方法 | ||
本发明公开了一种基于双流卷积注意力的动作识别方法。本发明方法首先对视频做预处理获得帧图像序列与光流图像序列,并分别提取视频的外观特征表示与动作特征表示;然后构建卷积注意力模块获得帧图像和光流图像的注意力特征表示,并通过双流融合模块对两种注意力表示进行信息融合;接着训练利用卷积注意力机制和双流融合方法的动作识别模型,并根据该模型对预处理后的新视频输出其动作类别。本发明方法不仅利用通道注意力和时空注意力捕获视频动作内容的潜在模式和时空关系,还通过双流融合从全局角度对视频的外观特征与运动特征进行信息融合,有效缓解了视频长期时序依赖的时序信息缺失问题,提高了动作识别的准确度。
技术领域
本发明属于计算机技术领域,尤其是视频分析中的动作识别技术领域,具体涉及一 种基于双流卷积注意力的动作识别方法。
背景技术
近年来,各类视频数据与日俱增,如何识别视频的动作内容成为许多视频处理任务 的基础研究课题。动作识别技术主要是根据视频的内容给出视频动作的类别,在辅助驾驶、视频内容审核、个性化推荐等多个应用场景有着十分重要的社会价值。例如,在车 辆辅助驾驶场景,动作识别技术可以帮助用户通过手势给导航系统发出指令,提升人们 的驾驶舒适度;在视频内容审核中,动作识别系统可以辅助人工进行视频内容审核,从 而提高审核效率、降低人力成本;在视频个性化推荐中,动作识别技术将视频按照内容 进行分类,根据用户感兴趣的话题类别为其推荐个性化的视频内容。目前,基于深度学 习技术的视频动作识别模型能够以远高于人工处理的效率完成动作分类任务,这将节省 大量的人工开销。
卷积神经网络(Convolutional Neural Networks,CNN)在图像识别、目标检测等计算机视觉任务上带来显著的性能提升。不同于单幅图像,由图像帧序列构成的视频需 要考虑帧与帧之间的时序关系,所以研究人员提出了多种考虑时序信息的动作识别方法。 例如,三维卷积神经网络(3D ConvNets)在二维卷积神经网络(2D ConvNets)的基础 上对其卷积核加入时序维度,通过时序卷积捕获时序信息,有效提高识别准确率;双流 (Two-Stream)方法则分别使用彩色(RGB)图像和光流(Optical Flow)图像提取空间 视觉特征和时序运动特征,再对两种特征识别结果进行融合,从而准确理解视频动作内 容。此外,视频可能存在与动作类别无关的内容,而无关内容将干扰模型的识别准确率。 对此,目前主要采用两种方法解决该问题:1)利用长短期记忆网络(LSTM,Long Short-Term Memory)对卷积神经网络提取的图像帧特征进行处理,具体通过记忆单元保留关键特征 并遗忘无关信息,以减少无关内容对模型性能的影响;2)利用视觉注意力(Visual Attention)机制在特征图的空间维度计算对应的注意力图,据此获取图像帧的关键视觉 区域所表达的信息,并抑制无关内容所在的低注意力权重区域对模型的不利影响。
现有的视频动作识别方法仍存在一些不足:第一,不同视频帧内部的关键信息存在 差异,且不同帧的重要程度不相同,所以单一的视觉注意力无法有效捕获关键信息;第二,三维卷积神经网络受限于卷积核尺寸,仅能提取小范围内多帧的短期依赖时序信息,缺少对长期依赖时序信息的提取;第三,多数基于双流的方法直接将两种特征的动作识 别结果进行加权求和,未考虑对空间特征和运动特征进行信息融合。因此,为了应对上 述不足,本发明从通道时空关系和特征融合的角度出发,提出一种基于双流卷积注意力 的动作识别方法,以提高视频动作识别准确率。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于双流卷积注意力的动作识别 方法,利用卷积注意力机制完成通道和时空维度的动作信息特征提取,通过双流融合刻画长期依赖时序关系,以便获得更能反映视频数据潜在模式的特征表示,提升模型的动 作识别精度。
本发明方法首先获取包含动作类别标记的视频,然后进行以下操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110116862.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超小型电源实现方法
- 下一篇:一种垂直结构的光电逻辑开关