[发明专利]基于多目标检测3D CNN的人体行为识别方法及系统有效
申请号: | 201910136442.1 | 申请日: | 2019-02-18 |
公开(公告)号: | CN109977773B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 董敏;李永发;毕盛;聂宏蓄 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多目标 检测 cnn 人体 行为 识别 方法 系统 | ||
1.基于多目标检测3D CNN的人体行为识别方法,其特征在于,包括以下步骤:
1)对视频进行预处理,将视频流转化为图像帧,包括以下步骤:
1.1)获取视频数据集,这里主要采用的是公共数据集用于模型的训练,测试数据集为真实环境下摄像头进行采集;
1.2)对视频数据集进行归档操作,同一动作行为的视频数据归档到同一个文件夹下,文件夹的以其行为标签命名;
1.3)对视频数据集进行预处理,通过视频转换脚本程序把所有的视频全部转化为对应的图像帧集;
1.4)采用交叉验证法对步骤1.3)获得的图像帧集进行切割划分,用于模型的训练;
2)采用SSD检测技术对视频中的目标对象进行标定裁剪,包括以下步骤:
2.1)加载训练好的SSD检测模型;
2.2)读取视频流数据,送入SSD检测模型中,对视频的每一帧进行标定检测;
2.3)设置标定数据裁剪的大小,为步骤1.3)图像帧集中每一帧大小的一半,对所有视频进行转换并保存为标定的图像帧集;
3)建立图像帧数据和标定裁剪数据的特征提取网络结构,具体如下:
首先,分别搭建基于步骤1.3)的图像帧集的3D卷积神经网络模型和步骤2.3)标定的图像帧集的3D卷积神经网络模型;然后以连续16帧数据作为模型的输入,分别采用5层3D卷积操作、5层最大3D池化操作、1层特征融合层和3层全连接操作;为防止模型训练过拟合,对5层卷积层采用L2正则,在全连接层添加dropout(0.5);
4)建立特征融合模型,将步骤3)中提取的两种特征进行融合,包括以下步骤:
4.1)分别获取基于步骤1.3)的图像帧集的3D卷积神经网络模型和步骤2.3)标定的图像帧集的3D卷积神经网络模型提取的3D卷积特征,并对获得的特征进行Flatten()操作,作为融合层的输入;
4.2)完成中间特征的融合,作为全连接层的输入;
5)利用Softmax回归模型分类器进行分类;
6)根据实际的应用场景或公共数据集,对训练好的模型进行微调,增强模型的泛化、推广能力。
2.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法,其特征在于,在步骤5)中,利用Softmax分类器进行分类,包括以下步骤:
5.1)在步骤4)中完成特征的融合后,进过三层全连接层后作为Softmax分类器的输入,然后进行分类;
5.2)设定预警报告的阈值,当判定某一个行为动作的识别率达到其对应的阈值之后,系统给出预警提示。
3.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法,其特征在于,在步骤6)中,根据实际的应用场景或公共数据集,对训练好的模型进行微调,增强模型的泛化、推广能力,包括以下步骤:
6.1)迁移模型至特定的应用场景中,冻结模型的卷积和池化层参数;
6.2)更改模型的输入,输出层;
6.3)加载新场景下的数据集,重新训练全连接层的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910136442.1/1.html,转载请声明来源钻瓜专利网。