[发明专利]基于注意力增强三维时空表征学习的视频行为识别方法有效
申请号: | 201910721902.7 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110458085B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 石珍生;郑海永 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 重庆敏创专利代理事务所(普通合伙) 50253 | 代理人: | 陈千 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 增强 三维 时空 表征 学习 视频 行为 识别 方法 | ||
本发明公开了一种基于注意力增强三维时空表征学习的视频行为识别方法,设计了时空注意力增强残差学习模块,其采用双分支残差学习结构,包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支,且两个分支的输出集成在一起,由此产生时空注意力增强功能,提升了识别精度,另外,将时空注意力增强残差学习模块嵌入到主网络中,使时空注意力增强残差学习模块的主干分支复用主网络的基本网络单元从而形成整体的网络模型,在保证识别精度的前提下,网络结构简单、轻量且灵活。
技术领域
本发明涉及计算机视觉技术、视频理解技术领域,更具体地说,涉及一种基于注意力增强三维时空表征学习的视频行为识别方法。
背景技术
作为计算机视觉中的传统问题,图像识别被应用于执行大量基于机器的视觉任务,例如用标签标记图像内容,图像内容搜索和引导机器人,自动驾驶汽车和事故避免系统。深层卷积网络和大规模数据集使得这个领域有了一系列的突破。
AlexNet是第一个在深层卷积网络中被广泛应用的网络,和LeNet有一些类似。与传统方法相比,它利用了群组卷积并显著提高了性能。紧接着,VGG模型通过运用很小的3×3卷积块来加深了CNN网络的层数,并且表明了在网络深度达到16层和19层的时候有明显的提升。Inception模型则是很成功的多分支结构,每一条分支上都经过精心设计。DenseNet以前馈方式将每一层连接到每一层,这样任何两层都可以直接相互“沟通”。近几年来,通过使用帧级别的CNN模型,我们可以获得显着的行为识别性能提升。比如Karpathy他们团队的工作,是第一次提出使用卷积神经网络来做行为识别工作。紧接着,双流模型和3D-CNN的提出使得这两个框架成为了这项任务的两条主流。通常双流模型使用RGB视频数据和视频特征(比如像光流)来完善表示和分类任务。C3D使用一个三维卷积去学习时空特征,但是大量的参数导致了计算资源的损耗,因此亟需提供一种在保证识别精度的前提下,简单、且能节约计算资源的图像行为识别方法。近期3D-CNN方法比如I3D(Inflated-3D)使用的是对应二维网络扩展到三维的方法来学习时空特征,并且展示出了有效的结果提升以及计算资源的节省
发明内容
为解决上述技术问题,本发明提供一种基于注意力增强三维时空表征学习的视频行为识别方法。
为实现上述目的,本发明所采用的具体技术方案如下:
一种基于注意力增强三维时空表征学习的视频行为识别方法,包括如下步骤:
S1:建立主网络和时空注意力增强残差学习模块,所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支;
所述注意力掩膜分支包括相串联的注意力单元和归一化单元,所述主干分支包括至少一个基本网络单元,所述注意力掩膜分支通过注意力单元来提取注意力特征,并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)=(1+M(X))*T(X)与所述主干分支联合在一起,从而输出注意力增强的时空特征;其中,H(X)表示注意力增强的时空特征,M(X)表示所述归一化单元输出的信息,T(X)表示所述主干分支输出的信息;
S2:将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中,使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型;
S3:用训练集训练所述网络模型,优化参数得到注意力增强的识别网络;
S4:将测试集输入到所述识别网络中进行视频行为识别。
进一步地,所述主网络为ResNet-50,所述基本网络单元为残差单元。
进一步地,每一所述时空注意力增强残差学习模块的主干分支由一个残差单元构成,所述ResNet-50的第2~4层卷积层中依次具有3、4、6个残差单元,所述步骤S2包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721902.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于倒置残差网络的人脸年龄估计方法
- 下一篇:车辆重识别方法及装置