[发明专利]一种基于双流卷积注意力的动作识别方法有效
申请号: | 202110116862.0 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112926396B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李平;马浩男;曹佳晨;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 卷积 注意力 动作 识别 方法 | ||
1.一种基于双流卷积注意力的动作识别方法,其特征在于,该方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow,分别提取视频的外观特征表示FRGB和运动特征表示FFlow;具体是:
(1-1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列其中,N表示RGB帧图像总数目,表示序列中第i幅、宽为w、高为h的RGB三通道图像;视频V包含动作类别标记其中L为动作类别总数;v=10~30;
(1-2).对RGB帧图像序列VRGB采用卢卡斯-卡纳德方法计算,得到对应的光流图像序列表示第i帧包含竖直方向与水平方向双通道的光流图像,
(1-3).将RGB帧图像序列VRGB和光流图像序列VFlow分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示和其中为m帧RGB图像组成的片段,为m帧光流图像组成的片段;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征提取器A;分别提取SRGB对应的外观特征表示和SFlow对应的运动特征表示其中,和分别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′;
步骤(2).构建卷积注意力模块,输入为外观特征表示FRGB和动作特征表示FFlow,输出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征表示和运动注意力特征表示具体是:
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和三维卷积层f7×7×7(·);
(2-2).采用(2-1)方法对外观特征表示FRGB构建对应的外观卷积注意力模块包括通道注意力模块和时空注意力模块
(2-3).通道注意力模块的输入为输出为k段的c′个通道的通道注意力权重序列
其中,通道注意力权重分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作,MLP(·)由神经元数分别为c′、c′/2、c′的三层全连接层构成,σ(·)表示Sigmoid函数;
(2-4).时空注意力模块的输入为通道注意力权重序列加权的特征图符号表示逐元素乘法操作;输出为时空注意力权重序列
其中,时空注意力权重f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层,分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维度上的拼接操作;
(2-5).对外观特征表示FRGB使用通道注意力权重序列和时空注意力权重序列加权得到外观注意力特征表示其中,表示外观注意力特征图,
(2-6).采用(2-1)方法对运动特征表示FFlow构建对应的运动卷积注意力模块其构建方式与外观卷积注意力模块相同;由此得到运动注意力特征表示表示运动注意力特征图;
步骤(3).构建双流融合模块输入为外观注意力特征表示和运动注意力特征表示输出为外观双流特征表示ZRGB和运动双流特征表示ZFlow;具体是:
(3-1).双流融合模块用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;
(3-2).双流融合模块的输入为外观注意力特征表示和运动注意力特征表示输出为外观双流特征表示和运动双流特征表示
其中,和分别表示双流特征融合并残差连接后的第j段外观双流特征图和运动双流特征图;其中,特征降维层θ(·)、φ(·)、g(·)均表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作,表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表示一个卷积核大小为1×1×1、输入通道数为输出通道数为c'的三维卷积层,WZ(·)将特征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的相加操作;
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务;具体是:
(4-1).对外观双流特征表示ZRGB中的各段外观双流特征图进行三维时空平均池化,对运动双流特征表示ZFlow中的各段运动双流特征图进行三维时空平均池化,
然后将其池化后的结果输入至由全连接层与Softmax层构成的输出层中,得到各段的外观动作得分和运动动作得分和均表示经过Softmax层归一化后的动作类别概率;
(4-2).计算各段的外观动作得分RRGB的平均值,得到平均外观动作得分计算各段的运动动作得分RFlow的平均值,得到平均运动动作得分取和的平均,作为视频的最终动作得分
(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵损失,利用随机梯度下降算法调整更新输出层双流融合模块外观卷积注意力模块以及运动卷积注意力模块的参数,完成动作识别模型的构建;
(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′RGB和运动特征表示F′Flow,并将其输入至动作识别模型获得动作得分根据动作得分获得视频内容的动作类别即为R′中得分最高元素所对应的索引,完成动作识别任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110116862.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超小型电源实现方法
- 下一篇:一种垂直结构的光电逻辑开关