[发明专利]一种用于识别视频中人物动作的方法有效
申请号: | 202010021860.9 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111241996B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 蔡国永;蔡雨萌 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陆梦云 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 识别 视频 人物 动作 方法 | ||
本发明公开了一种用于识别视频中人物动作的方法,该方法是先利用一个空间卷积网络和时间卷积网络分别提取短视频中每一帧的空间特征和时间特征,对空间特征进行初步学习;然后利用运算模块对空间特征进行细粒度的学习,使用注意力机制选择空间特征中权重较大的特征向量生成注意力分数,用逐元素乘法生成的结果作为注意力特征向量,然后再以生成的结果作为空间特征向量,与时间特征作为输入,利用注意力继续选择空间特征中权重较大的特征向量,与时间特征做逐元素乘法,生成注意力特征向量,最后进行分类。该方法全部使用卷积核为1的空间和时间卷积,减少参数规模,实现降维,提高网络性能。与以往的网络相比,具有较高的准确率。
技术领域
本发明涉及计算机视觉与深度学习领域,具体是一种用于识别视频中人物动作的方法。
背景技术
视频学习是计算机视觉领域中一个基本且富有挑战性的方向,其目标是学习视频每一帧中的内容特征。目前的视频学习方向基本分为目标追踪、目标检测、时序动作定位、动作识别、异常检测几个领域。其中,动作识别主要是对视频中出现的人物进行特征提取,然后进行识别。但是视频中存在大量连续且冗余的时间和空间信息,如何设计一个网络模型对视频的时间维度和空间维度的特征进行细粒度的学习,是当前研究的热点。
在深度学习领域,对动作识别方法的研究主要分为以下三类:
基于无监督学习的动作识别(主要以自编码网络及其变体为代表),该识别方法主要通过独立子空间分析(ISA)的叠加,但是需要提前训练好ISA网络然后用较大的数据与其进行卷积的操作;
基于深度卷积神经网络的动作识别,该识别方法的使用范围比较广,总体上是在三维卷积的基础上添加时间维度;
基于时序神经网络及其扩展模型的动作识别,该识别方法是利用卷积神经网络先提取特征然后经过若干层长短时记忆网络,其中长短时记忆网络是一种特殊的递归神经网络,即能解决时间序列问题的预测。
目前,部分网络模块是以参数规模大的代价来提高网络性能,比较区域型3维卷积网络(C3D)大量使用三维卷积网络,而且卷积核的增大也使特征的维度大大增加。目前,尚未见有在网络模型在减少网络参数规模的基础上提高模型的性能的报道。
发明内容
本发明的目的是针对目前人物动作识别网络中参数规模大、性能低的问题,而提供一种用于识别视频中人物动作的方法。
一种用于识别视频中人物动作的方法,包括如下步骤:
(1)局部梯度空间特征学习:使用一种空间卷积网络和时间卷积网络分别提取短视频中每一帧的空间特征和时间特征,然后对空间特征进行初步学习;
(2)细粒度空间特征学习:利用运算模块对空间特征进行细粒度学习,对步骤(1)生成的空间特征通过高斯函数进行学习,然后使用注意力机制选择空间特征中权重较大的特征向量生成注意力分数,最后用逐元素乘法生成的结果作为注意力特征向量;
(3)块内注意力网络:利用局部功能注意力模块,以步骤(2)生成的结果作为空间特征微量,并与步骤(1)的时间特征作为输入,利用注意力模块继续选择空间特征中权重较大的特征向量,与时间特征做逐元素乘法,得到注意力特征向量。
步骤(1)所述局部梯度空间特征学习的方法步骤如下:
1)使用空间卷积spatial提取特征,经过sigmoid函数后将特征分成2组空间特征b1,b2,然后用时间卷积temporal提取时间特征T:
b1=b2=sigmoid(spatial(x))在空间维度提取特征并分为b1,b2;
T=temporal(x)在时间维度提取特征T;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021860.9/2.html,转载请声明来源钻瓜专利网。