[发明专利]基于时空双流网络的动作识别方法在审
申请号: | 202310686766.9 | 申请日: | 2023-06-12 |
公开(公告)号: | CN116543908A | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杨观赐;何宗霖;张昌福;邓炬锋;张良;王阳;李杨;罗可欣;何玲;刘丹;蓝善根;胡丙齐 | 申请(专利权)人: | 贵州大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G06V40/20;G06V20/40;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 贵阳东圣专利商标事务有限公司 52002 | 代理人: | 袁庆云 |
地址: | 550025 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 双流 网络 动作 识别 方法 | ||
1.一种基于时空双流网络的动作识别方法,其特征在于:该方法包括如下步骤:
步骤1、确定动作类别;
步骤2、视频数据Dv采集;
步骤3、基于关键帧处理视频数据并构建动作类别数据集,详细步骤如下:
步骤3.1:利用OpenCV库将视频数据Dv中的视频帧进行切分并将每一帧fi的尺寸初始化为3*340*240;
步骤3.2:利用图像特征描述符,为视频数据Dv的每一帧fi构建起表征视频帧图像属性的特征空间fa;
步骤3.3:利用帧间距离特征,为视频数据Dv的每一帧fi构建起表征视频帧之前距离差距的特征空间fc;
步骤3.4:构建基于特征交叉注意力机制的关键帧概率模型Rm,表示为:
其中,ycross表示交叉特征;mi与nj分别为特征空间fa和fc中的特征向量;Wmlp为权重;bmlp为偏置矩阵;aij为计算获得的注意力分数;wij为隐向量矩阵;a'ij为计算获得的中间变量;yattention为注意力特征;youtput为关键帧的概率;
将特征空间fa和fc中的第i个特征向量mi与第j个特征向量nj两两相乘得到交叉特征ycross,构建Wmlp和bmlp为权重和偏置矩阵的单层全连接神经网络,并利用单层全连接神经网络计算每一交叉特征的注意力分数aij,每种交叉特征ycross结合注意力分数aij获得注意力特征yattention,输入全连接神经网络dnn(.),最终获得视频每一帧是关键帧的概率youtput;
步骤3.5:对于大规模视频数据集以及采集的视频,利用混合高斯模型实现每一视频中每一帧背景差分值fg的计算,并利用聚类算法从每一视频的fg组成的集群中获得其聚类中心,将聚类中心作为模型Rm的训练基准;
步骤3.6:利用步骤3.2和步骤3.3中的方法为大规模视频数据集的每个视频构建特征空间,并以该特征空间和数据集对应的训练基准对模型Rm进行预训练;
步骤3.7:在预训练的基础上将数据Dv的特征空间fa和fc输入模型Rm,以Dv的训练基准作为真实值训练模型,并通过模型Rm输出关键帧集合K,最终形成了动作类别数据集;
步骤4、构建时空双流网络Nst,包括空间特征提取模块Ms和时间特征提取模块Mt,详细步骤如下:
步骤4.1:从动作数据集每个视频的关键帧中截取16帧作为一个样本输入网络,样本为四维张量(16,3,224,224);
步骤4.2:交换样本的张量维度获得空间特征张量,空间特征张量为(3,16,224,224);
步骤4.3:将样本的16帧沿颜色通道维度排列构成时间特征张量,时间特征张量为(48,224,224);
步骤4.4:利用空间特征提取模块Ms处理空间特征张量,空间特征提取模块Ms由9层三维卷积和5层三维池化以及一个全连接神经网络构成,将空间特征张量经过卷积和池化从四维张量(3,16,224,224)提取至二维张量(1,8192)并经过全连接神经网络映射至空间特征Fs;
步骤4.5:利用时间特征提取模块Mt处理时间特征张量,时间特征提取模块由二维卷积分片单元和Transformer编码器以及全连接神经网络构成,将时间特征张量经过二维卷积分片单元从三维张量(48,224,224)映射至二维张量(196,768)并增加类别编码矩阵(1,768)后与位置编码矩阵(197,768)结合得到二维张量(197,768),基于Transformer编码器提取至二维张量(1,768)并经过全连接神经网络映射至时间特征Ft;
步骤4.6:将空间特征提取模块Ms获得的空间特征Fs与时间特征提取模块Mt获得的时间特征Ft融合,获得融合特征Ffusion的公式如下:
其中,α表示特征融合权重系数;
步骤5、基于时空双流网络进行动作识别,详细步骤如下:
步骤5.1:加载双流网络Nst并置时间序列位置T=∅,动作类别Aresult=∅;
步骤5.2:如果帧速率fv大于每秒24帧,即fv24f/s,读取视频传感器的t=T+1秒视频流,否则读取t=T+ceil(fv/24)秒视频流,其中ceil( )函数的功能为对对浮点数向上取整;
步骤5.3:从读取的视频流中随机且连续的截取16帧;
步骤5.4:将16帧图像沿颜色通道方向排列整合为三维特征张量Vt;
步骤5.5:将16帧图像表示为四维特征向量Vs;
步骤5.6:将特征向量Vs输入空间特征提取模块Ms,计算获得空间特征Fs;
步骤5.7:将特征向量Vt输入时间特征提取模块Mt,计算获得时间特征Ft;
步骤5.8:融合空间特征Fs与时间特征Ft输出融合特征Ffusion;
步骤5.9:将融合特征Ffusion输入至softmax分类器,获得动作类别概率分布Ap,输出动作类别Aresult;
步骤5.10:输出时间序列位置T、动作类别Aresult,若视频流没有数据则退出,否则跳转至步骤5.2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310686766.9/1.html,转载请声明来源钻瓜专利网。