[发明专利]基于时空双流网络的动作识别方法在审

申请号：	202310686766.9	申请日：	2023-06-12
公开（公告）号：	CN116543908A	公开（公告）日：	2023-08-04
发明（设计）人：	杨观赐;何宗霖;张昌福;邓炬锋;张良;王阳;李杨;罗可欣;何玲;刘丹;蓝善根;胡丙齐	申请（专利权）人：	贵州大学
主分类号：	G16H50/30	分类号：	G16H50/30;G06V40/20;G06V20/40;G06V10/82;G06N3/0464;G06N3/08
代理公司：	贵阳东圣专利商标事务有限公司 52002	代理人：	袁庆云
地址：	550025 贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于时空双流网络动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时空双流网络的动作识别方法，其特征在于：该方法包括如下步骤：

步骤1、确定动作类别；

步骤2、视频数据D_v采集；

步骤3、基于关键帧处理视频数据并构建动作类别数据集，详细步骤如下：

步骤3.1：利用OpenCV库将视频数据D_v中的视频帧进行切分并将每一帧f_i的尺寸初始化为3*340*240；

步骤3.2：利用图像特征描述符，为视频数据D_v的每一帧f_i构建起表征视频帧图像属性的特征空间f_a；

步骤3.3：利用帧间距离特征，为视频数据D_v的每一帧f_i构建起表征视频帧之前距离差距的特征空间f_c；

步骤3.4：构建基于特征交叉注意力机制的关键帧概率模型R_m，表示为：

其中，y_cross表示交叉特征；m_i与n_j分别为特征空间f_a和f_c中的特征向量；W_mlp为权重；b_mlp为偏置矩阵；a_ij为计算获得的注意力分数；w_ij为隐向量矩阵；a'_ij为计算获得的中间变量；y_attention为注意力特征；y_output为关键帧的概率；

将特征空间f_a和f_c中的第i个特征向量m_i与第j个特征向量n_j两两相乘得到交叉特征y_cross，构建W_mlp和b_mlp为权重和偏置矩阵的单层全连接神经网络,并利用单层全连接神经网络计算每一交叉特征的注意力分数a_ij，每种交叉特征y_cross结合注意力分数a_ij获得注意力特征y_attention，输入全连接神经网络dnn(.),最终获得视频每一帧是关键帧的概率y_output；

步骤3.5：对于大规模视频数据集以及采集的视频，利用混合高斯模型实现每一视频中每一帧背景差分值f_g的计算，并利用聚类算法从每一视频的f_g组成的集群中获得其聚类中心，将聚类中心作为模型R_m的训练基准；

步骤3.6：利用步骤3.2和步骤3.3中的方法为大规模视频数据集的每个视频构建特征空间，并以该特征空间和数据集对应的训练基准对模型R_m进行预训练；

步骤3.7：在预训练的基础上将数据D_v的特征空间f_a和f_c输入模型R_m，以D_v的训练基准作为真实值训练模型，并通过模型R_m输出关键帧集合K，最终形成了动作类别数据集；

步骤4、构建时空双流网络N_st，包括空间特征提取模块M_s和时间特征提取模块M_t，详细步骤如下：

步骤4.1：从动作数据集每个视频的关键帧中截取16帧作为一个样本输入网络，样本为四维张量(16,3,224,224)；

步骤4.2：交换样本的张量维度获得空间特征张量，空间特征张量为(3,16,224,224)；

步骤4.3：将样本的16帧沿颜色通道维度排列构成时间特征张量，时间特征张量为（48,224,224）；

步骤4.4：利用空间特征提取模块M_s处理空间特征张量，空间特征提取模块M_s由9层三维卷积和5层三维池化以及一个全连接神经网络构成，将空间特征张量经过卷积和池化从四维张量(3,16,224,224)提取至二维张量(1,8192)并经过全连接神经网络映射至空间特征F_s；

步骤4.5：利用时间特征提取模块M_t处理时间特征张量，时间特征提取模块由二维卷积分片单元和Transformer编码器以及全连接神经网络构成，将时间特征张量经过二维卷积分片单元从三维张量(48,224,224)映射至二维张量(196,768)并增加类别编码矩阵(1,768)后与位置编码矩阵(197,768)结合得到二维张量(197,768)，基于Transformer编码器提取至二维张量(1,768)并经过全连接神经网络映射至时间特征F_t；

步骤4.6：将空间特征提取模块M_s获得的空间特征F_s与时间特征提取模块M_t获得的时间特征F_t融合，获得融合特征F_fusion的公式如下：

其中，α表示特征融合权重系数；

步骤5、基于时空双流网络进行动作识别，详细步骤如下：

步骤5.1：加载双流网络N_st并置时间序列位置T=∅，动作类别A_result=∅;

步骤5.2：如果帧速率f_v大于每秒24帧，即f_v24f/s，读取视频传感器的t=T+1秒视频流，否则读取t=T+ceil(f_v/24)秒视频流，其中ceil( )函数的功能为对对浮点数向上取整；

步骤5.3：从读取的视频流中随机且连续的截取16帧；

步骤5.4：将16帧图像沿颜色通道方向排列整合为三维特征张量V_t；

步骤5.5：将16帧图像表示为四维特征向量V_s；

步骤5.6：将特征向量V_s输入空间特征提取模块M_s，计算获得空间特征F_s；

步骤5.7：将特征向量V_t输入时间特征提取模块M_t，计算获得时间特征F_t；

步骤5.8：融合空间特征F_s与时间特征F_t输出融合特征F_fusion；

步骤5.9：将融合特征F_fusion输入至softmax分类器，获得动作类别概率分布A_p，输出动作类别A_result；