[发明专利]一种基于双流卷积网络的视频中人体行为识别方法在审
申请号: | 201911132228.5 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110909658A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 邓毅彪;蔡强;李海生;毛典辉;颜津 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 卷积 网络 视频 人体 行为 识别 方法 | ||
1.一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:包括以下步骤:
(1)对视频片段进行切帧、调整尺寸等预处理,获取连续的视频帧,接着对视频帧进行稀疏采样;
(2)将采样获取的视频帧输入到所述双流卷积网络模型中,利用卷积操作初步提取视频帧的卷积特征;
(3)将步骤(2)中初步提取的卷积特征分别输入空间流分支和时间流分支提取空间外观特征和时序运动特征,接着进行特征融合;
(4)将步骤(3)中融合后的特征向量输入Softmax分类器中进行分类,得到行为类别得分,模型经过不断地训练,趋于稳定后,输入测试视频片段,就能够得到最终的人体行为识别结果。
2.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(1)中,利用计算机视觉库OpenCV中提取视频帧的方法,从包含人体行为的视频片段中提取连续视频帧,并将视频帧全部处理成尺寸为112*112像素的RGB图像,接着根据视频帧数量平均分成三个部分,依次从三个部分中随机选取8、9、8张图像,组成25张连续视频帧输入到步骤(2)的网络模型中。
3.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(2)中,初步提取特征的卷积操作包括3个卷积层和2个最大池化层,其中第一个卷积层采用1*7*7的卷积核,获取较大的网络感受野,然后通过最大池化层进行下采样,接着通过1*1卷积层和3*3卷积层对卷积特征降维,减少网络模型的参数量,提高特征的鲁棒性。
4.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(3)中,所述空间流分支由多个2D Inception模块和3D Inception模块堆叠构成,其中Inception模块是图像识别领域网络结构常用的模块,空间流分支的底层采用2DInception模块,利用在ImageNet上训练好的模型进行初始化,加快网络训练的收敛速度,而高层采用3D Inception模块则可以更好地捕捉高层语义特征信息。
5.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(3)中的时间流分支采用1*1*1的卷积层调整输入特征向量的通道数,将相邻通道的特征向量F1,F2输入光流预测卷积层,采用Sobel算子作为卷积核,预测特征残差的光流场,捕捉视频的时序运动特征,所涉及的计算方式为u=Flow(F1,F2),其中张量u表示特征向量上每个位置水平方向和垂直方向的预测光流,Flow表示光流预测卷积层,使用光流预测卷积层计算张量u,具体步骤为:
初始设置u=0,p=0
ρc=F2-F1
u=v+divergence(p)
其中p表示散度变量,ρ表示特征残差,λ控制输出的平滑度,θ控制权重,τ控制时间步长,λ、θ、τ均是需要学习的参数,经过网络的多次迭代优化,使得输出的张量u更接近真实光流场的分布。
6.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(3)中,将空间外观特征和时序运动特征在通道上进行特征融合得到一个特征向量,将特征向量输入Softmax分类器中,输出人体行为的分类得分,其中网络采用交叉熵损失函数,网络的训练过程是最小化交叉熵损失函数的过程,所涉及的计算方式为:
其中,C表示所有的行为类别,yi为类别i的真实标签,gj为G的第j个维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911132228.5/1.html,转载请声明来源钻瓜专利网。