[发明专利]一种基于双流深度神经网络的人体行为识别方法有效
申请号: | 202011617145.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112766062B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 钱惠敏;黄敏;皇甫晓瑛 | 申请(专利权)人: | 河海大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/44;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 钱玲玲 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 深度 神经网络 人体 行为 识别 方法 | ||
1.一种基于双流深度神经网络的人体行为识别方法,其特征在于,包括如下步骤:
根据原始视频数据集获得多个待识别的RGB图像序列,并对每个待识别的RGB图像序列进行预处理;
利用训练好的空间域行为识别模型和时间域行为识别模型分别处理每个预处理后的RGB图像序列,获得空间域识别类型概率矩阵和时间域识别类型概率矩阵;
利用均值融合模型对空间域识别类型概率矩阵和时间域识别类型概率矩阵进行概率融合,获得原始视频数据集对应的人体行为识别结果;
所述空间域行为识别模型利用(2+1)D Resnet构建而成;所述时间域行为识别模型利用基于梯度中心化改进的PWC-Net和(2+1)D Resnet级联构建而成;
所述基于梯度中心化改进的PWC-Net包括6级特征金字塔网络层、特征扭曲层、代价容量层、光流提取层和上下文网络层;所述(2+1)D Resnet包括五个卷积层、一个自适应3D全局池化层、一个全连接层和一个Softmax分类器;
所述时间域行为识别模型的训练过程如下:
利用第一公共数据集对基于梯度中心化改进的PWC-Net进行网络训练,获得训练好的基于梯度中心化改进的PWC-Net;
利用第一公共数据集对(2+1)D Resnet进行网络预训练,获得预训练后的(2+1)DResnet;
利用训练好的基于梯度中心化改进的PWC-Net处理第二公共数据集,获得含有人体行为运动信息的光流帧序列;
利用光流帧序列对预训练后的(2+1)D Resnet进行网络训练,获得训练好的时间域行为识别模型;
基于梯度中心化改进的PWC-Net的网络训练过程中,在每个迭代阶段,基于Adam优化算法计算权值梯度,并利用Adam优化算法计算的权值梯度减去当前阶段的权值梯度的均值,获得网络权值更新的差值。
2.根据权利要求1所述的一种基于双流深度神经网络的人体行为识别方法,其特征在于,光流帧序列的获取过程如下:
根据第二公共数据集获得多个第二RGB图像序列,针对每一个第二RGB图像序列,按照帧顺序将其中的RGB图像划分为两两一组,获得多组RGB图像;
利用训练好的基于梯度中心化改进的PWC-Net依次处理每组RGB图像,获得每一组RGB图像的光流帧;
利用所有RGB图像的光流帧生成光流帧序列。
3.根据权利要求1或2所述的一种基于双流深度神经网络的人体行为识别方法,其特征在于,获得每一组RGB图像的光流帧的具体操作如下:
将一组RGB图像输入6级特征金字塔网络层,获得6级特征图,每一级特征图包括人体在时间流上的运动信息;
将第6级特征图依次输入代价容量层、光流提取层和上下文网络层,获得第6级特征图对应的光流图;
将第n级特征图与第n+1级特征图对应的光流图依次输入特征扭曲层、代价容量层、光流提取层和上下文网络层,获得第n级特征图对应的光流图,n=1,2,3,4,5;
对第1级特征图对应的光流图进行上采样处理,获得该组RGB图像对应的光流帧。
4.根据权利要求1所述的一种基于双流深度神经网络的人体行为识别方法,其特征在于,所述第一公共数据集采用视频数量不低于十万级、预定义人体行为类别数量不低于100的视频数据集;所述第二公共数据集采用视频数量不高于万级、预定义人体行为类别数量不高于100的视频数据集。
5.根据权利要求1所述的一种基于双流深度神经网络的人体行为识别方法,其特征在于,空间域识别类型概率矩阵和时间域识别类型概率矩阵的获取过程如下:
获得多个预定义的人体行为类别;
利用训练好的空间域行为识别模型处理每个预处理后的RGB图像序列,获得每个RGB图像序列对应的人体行为空间特征,利用Softmax分类器计算每个人体行为空间特征相对于每个预定义的人体行为类别的概率值,构建空间域识别类型概率矩阵;
利用训练好的时间域行为识别模型处理每个预处理后的RGB图像序列,获得每个RGB图像序列对应的人体行为运动特征,利用Softmax分类器计算每个人体行为运动特征相对于每个预定义的人体行为类别的概率值,构建时间域识别类型概率矩阵。
6.根据权利要求1所述的一种基于双流深度神经网络的人体行为识别方法,其特征在于,所述人体行为识别结果的计算公式如下:
其中,P表示人体行为识别结果,即原始视频数据集对应的人体行为类别,PSpat表示空间域识别类型概率矩阵,PTemp表示时间域识别类型概率矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011617145.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可无缝连屏的配电柜
- 下一篇:脱肟型室温硫化硅橡胶及其制备方法