[发明专利]基于时空双流网络的动作识别方法在审

专利信息
申请号: 202310686766.9 申请日: 2023-06-12
公开(公告)号: CN116543908A 公开(公告)日: 2023-08-04
发明(设计)人: 杨观赐;何宗霖;张昌福;邓炬锋;张良;王阳;李杨;罗可欣;何玲;刘丹;蓝善根;胡丙齐 申请(专利权)人: 贵州大学
主分类号: G16H50/30 分类号: G16H50/30;G06V40/20;G06V20/40;G06V10/82;G06N3/0464;G06N3/08
代理公司: 贵阳东圣专利商标事务有限公司 52002 代理人: 袁庆云
地址: 550025 贵*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 时空 双流 网络 动作 识别 方法
【权利要求书】:

1.一种基于时空双流网络的动作识别方法,其特征在于:该方法包括如下步骤:

步骤1、确定动作类别;

步骤2、视频数据Dv采集;

步骤3、基于关键帧处理视频数据并构建动作类别数据集,详细步骤如下:

步骤3.1:利用OpenCV库将视频数据Dv中的视频帧进行切分并将每一帧fi的尺寸初始化为3*340*240;

步骤3.2:利用图像特征描述符,为视频数据Dv的每一帧fi构建起表征视频帧图像属性的特征空间fa

步骤3.3:利用帧间距离特征,为视频数据Dv的每一帧fi构建起表征视频帧之前距离差距的特征空间fc

步骤3.4:构建基于特征交叉注意力机制的关键帧概率模型Rm,表示为:

其中,ycross表示交叉特征;mi与nj分别为特征空间fa和fc中的特征向量;Wmlp为权重;bmlp为偏置矩阵;aij为计算获得的注意力分数;wij为隐向量矩阵;a'ij为计算获得的中间变量;yattention为注意力特征;youtput为关键帧的概率;

将特征空间fa和fc中的第i个特征向量mi与第j个特征向量nj两两相乘得到交叉特征ycross,构建Wmlp和bmlp为权重和偏置矩阵的单层全连接神经网络,并利用单层全连接神经网络计算每一交叉特征的注意力分数aij,每种交叉特征ycross结合注意力分数aij获得注意力特征yattention,输入全连接神经网络dnn(.),最终获得视频每一帧是关键帧的概率youtput

步骤3.5:对于大规模视频数据集以及采集的视频,利用混合高斯模型实现每一视频中每一帧背景差分值fg的计算,并利用聚类算法从每一视频的fg组成的集群中获得其聚类中心,将聚类中心作为模型Rm的训练基准;

步骤3.6:利用步骤3.2和步骤3.3中的方法为大规模视频数据集的每个视频构建特征空间,并以该特征空间和数据集对应的训练基准对模型Rm进行预训练;

步骤3.7:在预训练的基础上将数据Dv的特征空间fa和fc输入模型Rm,以Dv的训练基准作为真实值训练模型,并通过模型Rm输出关键帧集合K,最终形成了动作类别数据集;

步骤4、构建时空双流网络Nst,包括空间特征提取模块Ms和时间特征提取模块Mt,详细步骤如下:

步骤4.1:从动作数据集每个视频的关键帧中截取16帧作为一个样本输入网络,样本为四维张量(16,3,224,224);

步骤4.2:交换样本的张量维度获得空间特征张量,空间特征张量为(3,16,224,224);

步骤4.3:将样本的16帧沿颜色通道维度排列构成时间特征张量,时间特征张量为(48,224,224);

步骤4.4:利用空间特征提取模块Ms处理空间特征张量,空间特征提取模块Ms由9层三维卷积和5层三维池化以及一个全连接神经网络构成,将空间特征张量经过卷积和池化从四维张量(3,16,224,224)提取至二维张量(1,8192)并经过全连接神经网络映射至空间特征Fs

步骤4.5:利用时间特征提取模块Mt处理时间特征张量,时间特征提取模块由二维卷积分片单元和Transformer编码器以及全连接神经网络构成,将时间特征张量经过二维卷积分片单元从三维张量(48,224,224)映射至二维张量(196,768)并增加类别编码矩阵(1,768)后与位置编码矩阵(197,768)结合得到二维张量(197,768),基于Transformer编码器提取至二维张量(1,768)并经过全连接神经网络映射至时间特征Ft

步骤4.6:将空间特征提取模块Ms获得的空间特征Fs与时间特征提取模块Mt获得的时间特征Ft融合,获得融合特征Ffusion的公式如下:

其中,α表示特征融合权重系数;

步骤5、基于时空双流网络进行动作识别,详细步骤如下:

步骤5.1:加载双流网络Nst并置时间序列位置T=∅,动作类别Aresult=∅;

步骤5.2:如果帧速率fv大于每秒24帧,即fv24f/s,读取视频传感器的t=T+1秒视频流,否则读取t=T+ceil(fv/24)秒视频流,其中ceil( )函数的功能为对对浮点数向上取整;

步骤5.3:从读取的视频流中随机且连续的截取16帧;

步骤5.4:将16帧图像沿颜色通道方向排列整合为三维特征张量Vt

步骤5.5:将16帧图像表示为四维特征向量Vs

步骤5.6:将特征向量Vs输入空间特征提取模块Ms,计算获得空间特征Fs

步骤5.7:将特征向量Vt输入时间特征提取模块Mt,计算获得时间特征Ft

步骤5.8:融合空间特征Fs与时间特征Ft输出融合特征Ffusion

步骤5.9:将融合特征Ffusion输入至softmax分类器,获得动作类别概率分布Ap,输出动作类别Aresult

步骤5.10:输出时间序列位置T、动作类别Aresult,若视频流没有数据则退出,否则跳转至步骤5.2。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310686766.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top