[发明专利]基于深度图像和骨骼信息的动作识别方法有效
申请号: | 201910542873.8 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110263720B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 张良;郭守向;其他发明人请求不公开姓名 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/74;G06V20/64 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 庞学欣 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 图像 骨骼 信息 动作 识别 方法 | ||
1.一种基于骨骼信息和深度图像的动作识别方法,所述的基于骨骼信息和深度图像的动作识别方法包括按顺序进行的下列步骤:
1)利用深度摄像机采集人体动作视频,然后从每一个人的人体动作视频中分别提取出多帧深度图像和骨骼动作帧序列而作为一个人体动作样本,由所有人的人体动作样本构成训练样本;
2)对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν;
3)对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子算法生成骨骼点特征向量F;
4)将按上述步骤1)至3)得到的大量训练样本的全局点云特征向量ν和骨骼点特征向量F分别输入到两个SVM分类器中进行训练,得到所需要的两个动作分类模型;
5)利用上述两个动作分类模型对待识别人体动作样本的类别进行识别;
其特征在于:在步骤2)中,所述的对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν的方法是:
(1)对深度图像进行预处理;
依据深度值的大小从深度图像中获取人体动作区域,由此将人体动作区域和背景区域分离开;
然后应用背景差分法检测人体运动区域中的人体,公式如下:
其中,D(x,y)为深度图像中某个像素点与深度摄像机间的距离;D'(x,y)为深度图像中当前像素点与深度摄像机间的距离;σth为预先设定的距离阈值;Dbk(x,y)为某个像素点背景的距离;
(2)将每一帧预处理后的深度图像进行坐标转换,生成运动历史点云;
将每一帧预处理后的深度图像从二维坐标系转换到三维相机坐标系下,得到人体的实际三维坐标数据,然后将三维相机坐标系下三维点的X、Y、Z值赋给点云三维点的X、Y、Z值,以点云的存储格式表示三维坐标数据,得到三维人体运动历史体;运动历史点云是由每一帧深度图像得到的三维人体运动历史体填充而生成;
运动历史点云是将一个动作序列压缩成一个包含空间信息与时间信息的点的集合,公式为MHPC={P1,P2,...,Pn},其中n表示MHPC中点的个数;点云中任一点的坐标定义为Pi(x,y,z,h),i∈(1,n),其中Pi.x,Pi.y,Pi.z是指在三维相机坐标系下点的x,y,z坐标值,用来记录人体动作的发生位置;Pi.h为深度图像的帧号,用来记录该点的发生时间;
(3)对生成的运动历史点云进行降采样;
(4)从降采样后的运动历史点云中提取出全局点云特征向量;
具体方法如下:
(4.1)计算运动历史点云中每一个点的法线;
运动历史点云中每一个点pi对应一个协方差矩阵C,公式如下:
其中,k表示点pi邻近点的数目,表示最近邻近点的三维质心,λj表示协方差矩阵的第j个特征值,表示第j个特征向量,vp表示视点方向向量;
通过上式得到运动历史点云中每一个点pi的法线
(4.2)利用上述法线计算降采样后的运动历史点云的中心点与任意一点之间的三个角度,得到三组n维向量;
通过下列公式可以计算出该运动历史点云的中心点与任意一点之间的三个角度α,φ,θ:
其中,和为运动历史点云中两个点的坐标,和分别为点和点对应的法线,ν,u,w为定义的三个坐标轴方向向量,n为运动历史点云中点的数量;
通过计算运动历史点云的中心点与每一点之间的三个角度α,φ,θ,可以得到三组{α1,α2,α3···αn},{β1,β2,β3···βn},{θ1,θ2,θ3···θn}n维向量;
(4.3)连接每组n维向量;
通过转换矩阵可将每组n维向量降维成一个50维向量,然后将三组50维向量连接起来,最后得到一个150维的全局点云特征向量ν,作为一个人体动作样本的点云特征;
其中:
为计算得到的三组n维向量;
为转换矩阵;
为降维后得到的的全局点云特征向量;
则连接后的[α1,α2,α3···α50,β1,β2,β3···β50,θ1,θ2,θ3···θ50]为连接后的全局点云特征向量。
2.根据权利要求1所述的基于骨骼信息和深度图像的动作识别方法,其特征在于:在步骤3)中,所述的对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子算法生成骨骼点特征向量F的方法是:
骨骼动作帧序列为人体运动期间的多个骨骼动作帧,每一骨骼动作帧保存三维相机坐标系下的20个人体骨骼点坐标,具体为头部、右肩、脊柱中心、右肘、右腕、右手、右臀部、右膝盖、右踝、右脚、颈部、左肩、臀部中心、左肘、左腕、左手、左臀部、左膝盖、左踝和左脚,用来表示所有人体骨骼点在三维相机坐标系下的三维坐标;
具体方法如下:
(1)对骨骼动作帧序列进行预处理,去除掉一部分冗余帧;
(2)将预处理后的骨骼动作帧序列进行坐标变换;
由于三维相机坐标系并不是真实世界中的坐标,在这里需要转换到实际场景坐标才有意义,实际场景骨骼点坐标用表示;设深度摄像机在X轴、Y轴、Z轴的偏转角度分别为θx,θy,θz,实际场景坐标系与三维相机坐标系原点的偏移量为Δx,Δy,Δz;通过下式就可以实现从三维相机坐标系到实际场景坐标系之间的转换:
其中:
即在实际场景坐标系下所有人体骨骼点三维坐标用来表示;
(3)从经过坐标变换的骨骼动作帧序列中分别计算出人体骨骼帧的相对位移特征、相对位置特征和相对角度特征,得到各自的特征集合,然后将上述三组特征集合合并成一个局部特征集合,之后聚类生成k类字典,最后生成骨骼点特征向量;
具体方法如下:
(3.1)计算相对位移特征,得到相对位移特征特征集合;
将第s+1骨骼动作帧和第s-1骨骼动作帧下的头部、右手、左手、右脚和左脚坐标的位移差值作为相对位移特征,计算公式如下:
表示第s骨骼动作帧下人体骨骼点i的坐标ΔT是第s+1骨骼动作帧和第s-1骨骼动作帧之间的时间间隔,s为总的骨骼动作帧数量;一个人体动作样本的相对位移特征构成的特征集合为
(3.2)计算相对位置特征,得到相对位置特征集合;
将第s骨骼动作帧下头部与脊柱中心、左手与脊柱中心、右手与脊柱中心的坐标差值作为相对位置特征,计算公式如下:
其中,表示第s骨骼动作帧下头、左手、右手的坐标表示第s骨骼动作帧下中心骨骼点脊柱中心的坐标s为骨骼动作帧;则一个人体动作样本的相对位置特征构成的特征集合为
(3.3)计算相对角度特征,得到相对角度特征集合;
将第s骨骼动作帧时头与脊柱中心的余弦值、左手与脊柱中心的余弦值、右手与脊柱中心的余弦值这三个余弦值作为相对角度特征,计算公式如下:
其中,表示第s骨骼动作帧下头部、左手、右手的坐标表示第s骨骼动作帧下脊柱中心的坐标s为骨骼动作帧,则一个人体动作样本的相对角度特征构成的特征集合为
(3.4)将上述三组特征集合合并成一个局部特征集合{νs},作为一个人体动作样本的特征集合;
(3.5)将所有人体动作样本的特征集合合并成一个总体特征集合,然后聚类生成k类字典;
将所有人体动作样本的特征集合合并成一个总体特征集合{νs},然后将总体特征集合用K-means聚类方法生成k类字典{c}={c1,c2,c3...ci},i∈(1,k);
(3.6)采用VLAD算法并利用上述字典从人体动作样本中生成骨骼点特征向量;
具体方法如下:
一个人体动作样本的局部特征集合为{νs}=[x1,x2,x3,......xN],其中N为局部特征的个数,
第一步:
将每个局部特征量化到最近邻的字典,并计算其与最近邻字典的残差,字典ci的残差计算公式如下:
其中ci∈{c},NN(x)=ci表示字典ci为局部特征集合{νs}的最近邻字典,vi表示人体动作样本中最近邻字典中属于字典ci的所有局部特征集合与字典ci的残差累计和;
第二步:
将所有字典上的残差进行串联,得到VLAD特征向量F=[v1,v2,...vk],利用主成分分析法归一化生成相同维度的特征向量F,作为一个人体动作样本的骨骼点特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910542873.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序