[发明专利]基于可分离三维残差注意网络的人体动作识别方法有效
申请号: | 202110334547.5 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113065450B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 张祖凡;彭月;甘臣权;张家波 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/46;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可分离 三维 注意 网络 人体 动作 识别 方法 | ||
1.一种基于可分离三维残差注意网络的人体动作识别方法,其特征在于,该方法具体包括以下步骤:
S1:构造可分离三维卷积,利用可分离三维卷积替换3D ResNet中的标准三维卷积,从而搭建Sep-3D ResNet;其中,Sep-3D ResNet是可分离三维残差网络;
S2:设计通道注意力模块以捕捉通道级重要性分布,设计空间注意力模块以自动权衡各空间位置的重要性,然后将两个注意力模块按顺序堆叠以构造双重注意力机制;
设计通道注意力模块,具体包括:采取全局平均池化操作对输入特征的空间维度进行聚合,生成通道描述子FC∈R1×1×C′,表达公式为:
其中,Ft∈RH′×W′×C′表示t时刻的切片张量,t=0,1,…,T′,T′、H′、W′、C′分别表示输入立方体经过一组或一系列可分离三维卷积后得到的中层特征映射立方体的时间维度、高度、宽度和通道数;
随后,利用类似于自注意力函数的门控机制得到各通道的重要性分布集合,即将通道描述子FC送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射;为限制模型的参数量,将隐藏激活层的维度设置为C′/r,r为缩减比;然后利用sigmoid激活函数进行归一化操作,得到最终的通道注意力映射;通道注意力求解过程表达式为:
MC(Ft)=EPC(σ(MLP(FC)))=EPC(σ(W1(δ(W0FC))))
其中,σ(·)表示sigmoid激活函数,δ(·)表示relu激活函数,W0、W1代表多层感知机的权重,EPC(·)表示将通道注意力值沿空间域扩展到原始维度,即令MC(Ft)∈RC′×H′×W′;
为了执行自动特征校准,需要将通道注意力映射到原始输入特征,则细化后的切片张量计算过程为:
其中,符号指元素级乘法运算;
设计空间注意力模块,具体包括:利用全局平均池化操作聚合Ft′的通道维度,以生成一个二维空间描述子FS∈RH′×W′×1,从而总结Ft′的全局通道信息,具体计算表达式为:
随后,利用二维卷积操作而非多层感知机来计算其空间注意力值分布,即:
MS(Ft′)=EPS(σ(conv(FS)))
其中,conv(·)表示二维卷积操作,EPS(·)表示沿通道尺度上的维度变换操作;
在推断了原始切片张量Ft的通道注意映射和空间注意映射后,首先利用通道注意力模块实现特征校准,得到细化后的切片张量Ft′,然后在空间注意映射MS(Ft′)和Ft′之间使用元素级乘法操作执行特征再校准,得到注意力加权后的切片张量Ft”,从而实现在区分信息密集型通道的同时识别空间显著区域,并抑制冗余背景信息;得到的最终细化张量Ft”的计算过程为:
S3:通过对不同时刻的中层卷积特征进行双重注意力加权,在时间维度上扩展双重注意力模块,然后将其嵌入到Sep-3D ResNet的可分离三维残差块中,搭建形成Sep-3D RAN模型;其中,Sep-3D RAN是可分离三维残差注意网络;
S4:利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练,具体包括:利用一个全连接层生成最终的一维预测向量I∈RC,C指目标数据集的动作类别总数,然后选择softmax函数以计算输入视频所属类别的概率分布,即:
其中,表示第n个视频属于动作类别i的预测概率;
在优化阶段,利用交叉熵损失函数调节真实值与预测值之间的误差,损失函数表达式为:
其中,yn,i表示给定输入视频相对应的真实标签值,N指训练过程中每一批次的样本数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110334547.5/1.html,转载请声明来源钻瓜专利网。