[发明专利]一种基于深度视频的人体行为识别方法有效
申请号: | 201711162729.9 | 申请日: | 2017-11-21 |
公开(公告)号: | CN108038420B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 肖阳;陈俊;曹治国;熊拂;张博深;胡桂雷 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T7/50 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 廖盈春;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 视频 人体 行为 识别 方法 | ||
1.一种基于深度视频的人体行为识别方法,其特征在于,所述方法包括:
(1)对数据集中深度视频采用多视角投影,获得深度视频的多个视角的子视频帧序列;定义11个最终的投影视角:-90°,-40°,-20°,-10°,-5°,0°,5°,10°,20°,40°,90°;
(2)对每个子视频帧序列使用动态图编码,将子视频帧序转化为动态图;
(3)对所有视角的动态图进行分组并训练各组的深度卷积神经网络,分别提取各组深度卷积神经网络全连接层的特征并串联起来作为各组的多视角特征;
(4)所有多视角特征分别进行降维处理,再将降维后所有多视角特征串联起来作为最终特征,然后针对最终特征采用多类分类策略训练线性的支撑向量机分类器;
(5)将待识别深度视频经过多视角变换和动态图编码,再使用训练好的卷积神经网络提取特征后输入到支撑向量机分类器,输出结果即为人体行为识别结果。
2.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(1)中深度视频的多视角投影具体包括:
(11)根据深度视频中每一帧图像的每个像素点深度值的信息进行旋转变换得到不同视角的三维空间位置,三维空间三个坐标轴的旋转变换矩阵可以表示为:
其中,α,θ,β分别表示三维空间三个坐标轴的旋转角度;
(12)对旋转后的三维视角图,选择一个投影面进行投影,得到二维灰度图像,三个投影面的投影矩阵分别表示为:
(13)通过旋转与投影变换得到三维空间任意其他视角下的深度图像,整体的变换矩阵T可以表示为:
T=Rrow*Rcol*Rdepth*Vsurface,
其中,Vsurface表示所选择投影面的投影变换矩阵。
3.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(2)中待编码视频的动态图为:
其中,u为动态图模型参数;ξij为可松弛变量;C为惩罚系数;ti为视频第i帧时间;tj为视频的第j帧时间;uT为模型参数的转置;为视频第j帧图像的映射表示;为视频第i帧图像的映射表示。
4.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(3)对所有视角的动态图进行分组具体按照视角所处的区间进行分组。
5.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(3)中各组深度卷积神经网络的训练集为各组的动态图。
6.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(4)中采用基于PCA的降维处理。
7.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(1)中深度视频采用多视角投影之前还包括步骤(0):
(0)对深度视频的视频帧序列中的人体目标进行检测,并将检测得到的结果进行融合,得到人体目标的运动行为定位边框,在深度视频中截取运动行为定位边框部分获得新的深度视频。
8.根据权利要求7所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(0)中人体目标检测具体方法为:
首先利用数据集中的深度视频训练人体目标检测的Yolo V2模型;再使用该模型去检测视频帧序列中的人体目标。
9.根据权利要求7所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(0)中人体目标的运动行为定位边框具体为:
m=(xum,yum,xlm,ylm),
其中,边框左上角的坐标值边框右下角的坐标值和表示单个人体目标左上角的坐标;和表示单个人体目标右下角的坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711162729.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移位寄存电路及移位寄存单元
- 下一篇:智能接待服务方法及系统