[发明专利]基于多时空信息融合卷积神经网络的人体行为识别方法有效

专利信息
申请号: 201910216232.3 申请日: 2019-03-21
公开(公告)号: CN109886358B 公开(公告)日: 2022-03-08
发明(设计)人: 王永雄;谈咏东;黄强 申请(专利权)人: 上海理工大学
主分类号: G06V10/774 分类号: G06V10/774;G06N3/04
代理公司: 上海邦德专利代理事务所(普通合伙) 31312 代理人: 余昌昊
地址: 200093 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 多时 信息 融合 卷积 神经网络 人体 行为 识别 方法
【权利要求书】:

1.一种基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:

步骤一:制作样本标签,将样本数据集根据类别制作不同的标签,将样本数据集分为训练数据集和评估数据集;

步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST-(2+1)D模型;

步骤三:初始化和设置网络模型,将网络模型参数随机初始化;

步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成固定大小的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;

步骤五:将权重导入构建的MST-(2+1)D模型中,使用网格模型进行视频人体行为识别,进行人体行为识别。

2.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,训练数据集和评估数据集的比例为2:1。

3.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,所述MST-(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层;每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层,其中空间卷积层含有两种空间感受野,大小分别为1*1、3*3,时域卷积层含有三种时域感受野大小分别为1、3、5;全局池化层对最后一个MST单元输出的张量进行平均池化,然后输入全连接层,将全连接层的输出作为最终的特征输入到softmax分类层进行分类。

4.根据权利要求3所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,采用4个步长为2*2*1的空间下采样层,3个步长为1*1*2的时域下采样层;将3个时域下采样层分别设置在第4、5、6个MST单元,将4个空间下采样层分别设置在第1、4、5、6个MST单元,每个下采样层紧接在非线性层后。

5.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,步骤三中,初始学习率设置为0.005,在第10、20、30轮迭代时分别再乘以0.1,权重衰减设置为0.005,训练以n段子视频/批进行迭代,每段子视频含有m帧RGB图像。

6.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,利用训练过程中学习到的参数对输入的子视频同时进行不同尺度的空间信息和时域信息的特征提取,并在每一个卷积层后进行特征融合,将低维特征转换为高维特征,并将高维特征经过全连接层,最终输入softmax分类层进行人体行为识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理工大学,未经上海理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910216232.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top