[发明专利]一种基于改进的深度残差网络的人体行为识别方法在审
申请号: | 202310221454.0 | 申请日: | 2023-03-09 |
公开(公告)号: | CN116229323A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 罗仁泽;刘恒;林虹宇;吴涛;曹瑞;雷璨如;易玺;廖波;赵丹;王清松;谭亮 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/774;G06V10/80;G06V10/77;G06V10/82;G06N3/048;G06N3/08;G06N3/084;G06V10/764;G06N3/047;G06N3/0464 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 网络 人体 行为 识别 方法 | ||
1.一种基于改进的深度残差网络的人体行为识别方法,其特征在于包括以下步骤:
步骤1:使用摄像头获取人体行为视频,将视频标签构建成文件夹,将对应人体行为视频放在对应的标签文件夹下,构建人体行为识别数据集;
步骤2:将步骤1获取的人体行为识别数据集分为训练数据集、测试数据集和验证数据集;将视频等分为T个片段,表示为S={S1,S2...,ST},假设视频长度为A,则每个片段长度为表示向下取整;如果A/T不是一个整数,则先将视频分为A\T个片段,\表示取余,对A\T个片段每个片段随机丢失一帧,然后将剩余视频帧分为T个片段,对每个片段采样一张视频帧,图像尺寸均规范化为M×N,M∈(224,1080)和N∈(224,1080)分别表示图像的高度和宽度,形成训练集、测试集和验证集;
步骤3:构建基于注意力机制的特征融合模块,所述基于注意力机制的特征融合模块包括以下结构:
首先使用全局平均池化对需要融合的两个特征进行降维,将降维后的特征直接相加构成一个整体特征,然后使用自适应卷积核的一维卷积进行特征提取,最后使用Sigmoid激活函数层学习两个参数a0和a1=1-a0,将a0和a1分别与两个输入特征相乘再在通道维度上进行拼接,构成融合后的特征;该模块的输入的两个特征为n个帧数为f的视频样本X0和X1,f∈(1,64],X0和X1均为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};使用全局平均池化进行降维,降低计算量的同时集中全局信息,使用自适应选择卷积核大小的一维卷积实现通道的局部交互,自适应选择卷积核大小的公式:
其中C为特征通道数量,K为自适应选择卷积核的大小,将经过一维卷积的特征使用Sigmod激活函数生成权重参数a0和a1,权重参数计算公式:
a0=σ(C1Dk(GAP(X1)+GAP(X0)))
a1=1-a0
其中σ(·)为Sigmod激活函数,C1Dk代表具有自适应卷积核的一维卷积操作,GAP为全局平均池化操作,将权重参数分别与输入特征X0和X1相乘再在通道维度上拼接得输出特征H,输出H的公式:
H=Concate(X0⊙a0,X1⊙a1)
其中⊙代表通道级相乘,H为融合后的特征,Concate代表在通道维度上进行拼接操作,Concate的操作公式如下:
式中,X、Y均为该通道输入的特征图且X=Y,k表示输入特征图X的通道数,d为输入特征图Y的通道数,i∈[1,k],j∈[1,d];
步骤4:使用步骤3构建基于注意力机制的特征融合模块改进两种深度残差模块Identity Block和Conv Block,Identity Block输入维度和输出维度相同,可以串联,作用是加深网络,Conv Block输入和输出的通道数不同,不能连续串联,作用是改变网络的维度;
(1)所述改进的深度残差模块Identity Block包括以下结构:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
(2)所述改进的深度残差模块Conv Block包括以下结构:
第一个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
步骤5:构建改进的深度残差网络网络:所述改进的深度残差网络包括以下结构:
(1)第一层包含3×7×7的卷积核,该层通道数为64,步长为1×2×2,补零宽度为1×3×3,批归一化BN处理、线性单元Relu处理和最大池化层,最大池化层核的尺寸为3×3×3,步长为2×2×2,补零宽度为1×1×1;
(2)第二层包含两个相同的改进的残差模块Identity Block,将两个Identity Block串联,输入通道和输出通道数均为64;
(3)第三层含改进的Conv Block和Identity Block,将Conv Block和Identity Block进行串联,输入通道数为64,输出通道数为128;
(4)第四层包含改进的Conv Block和Identity Block,输入通道数为128,输出通道数为256;
(5)第五层包含改进的Conv Block和Identity Block,输入通道数为256,输出通道数为512;
(6)第五层后接平均池化层,经过平均池化层后,经过一个通道数为512的全连接层,后接softmax激活函数层;
步骤6:将步骤2得到的训练集和测试集送入到步骤5构建的改进的深度残差网络网络中进行训练,训练输入n个帧数为f的视频样本X3,f∈(1,64],X3为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};学习率设置为L,L∈(0,1),学习率变化为每E个训练周期衰减为原来的1/O,批尺寸大小设置为J,E、O和J均为正整数,使用交叉熵损失函数评估预测值与真实值的差距,使用随机梯度下降算法SGD对参数进行优化,冲量设置为S,S∈(0,1),权重衰减指数为A,A∈(0,1);使用验证集对训练过程进行验证,计算验证集的准确率Acci,训练至准确率Acci不再上升时,Acci∈(0,1),i表示训练轮次,i∈(1,N],N为最大训练轮次,是个正整数;使用以下公式评价模型识别准确率Acci:
式中,TP为模型预测正样本正确的数量,TN为模型预测负样本正确的数量,FP为模型预测正样本错误的数量,FN为模型预测负样本错误的数量,保存准确率最高的参数模型为P,Pi表示第i轮训练时的网络参数,Acc表示保存最高的准确率;P的更新按照以下公式:
步骤7:使用步骤6中保存的部署参数P作为改进的深度残差网络的网络参数,并将网络参数为P的改进的深度残差网络部署到识别终端上,同时终端对输入视频进行人体行为识别,得到视频属于每类人体行为的得分V,V是q×s的矩阵,V经maxout函数预测得到模型识别结果W,W是长度为q的向量,W计算公式如下:
式中Wn代表模型识别结果W的第n个元素,xqs代表预测矩阵V的q×s个元素,xqs∈(0,1],jn代表预测矩阵V第n行中最大的元素的列数,jn∈[1,s],s代表训练样本X3中视频样本人体行为类别数,Wn表示识别结果W的第n个元素的人体行为分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310221454.0/1.html,转载请声明来源钻瓜专利网。