[发明专利]一种基于降噪自动编码器和粒子滤波的人体动作识别方法有效
申请号: | 201610820909.0 | 申请日: | 2016-09-13 |
公开(公告)号: | CN106384093B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 孟勃;刘雪君 | 申请(专利权)人: | 东北电力大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京金智普华知识产权代理有限公司11401 | 代理人: | 皋吉甫 |
地址: | 132012 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 编码器 粒子 滤波 人体 动作 识别 方法 | ||
技术领域
本发明属于计算机视觉领域,具体涉及一种基于降噪自动编码器和粒子滤波的人体动作识别方法。
背景技术
人体动作识别是计算机视觉、模式识别、图像处理以及人工智能等多学科交叉的一个重要研究方向,它在人机交互、智能监控和医疗领域均有着巨大的应用价值和理论意义。它主要针对包含人的运动图像序列进行分析处理、特征提取、运动目标分类,实现识别和理解人的个体动作、人与人之间的以及人与外界环境之间的交互行为。
近年来,很多基于人体骨骼的动作识别方法被提出来,这些方法的基本原理是利用骨骼的关键姿态特征,组合成动作序列,通过比较动作中不同姿态出现的概率或者姿态的差异性来区分不同的动作。相对之前基于剪影或轮廓的动作识别方法,这种骨骼静态建模方法对提高识别率有一定的作用,但是骨骼静态建模方法没有充分利用骨骼的时间和空间特征,很难识别相似的动作,如挥手和画对号,在现实环境下的应用存在局限性。
有人提出了骨骼动态建模的方法,将一个动作序列看作是时间和空间的动态问题,提取骨骼节点的运动特征,然后通过特征分析、分类,得到识别结果。
这种方法明显提高了动作识别的正确率,但由于骨骼的时空特征复杂,很难提出鲁棒性的运动特征,所以目前更多的研究者致力于建立有效模型提取特征。另一方面,若骨骼数据因遮挡或视角变化而不准确,对识别的结果也有很大影响。
发明内容
针对上述问题,本发明提供一种基于降噪自动编码器和粒子滤波的人体动作识别方法。本发明与现有技术中其他基于骨骼的人体动作识别方法相比,识别精度和准确高,对遮挡和视角变化有一定的鲁棒性。
本发明是通过以下技术方案实现的:
一种基于降噪自动编码器和粒子滤波的人体动作识别方法,所述人体动作识别方法将待分类的动作视频集随机分为训练视频集和测试视频集,将训练视频集和测试视频集分别用于计算动作的训练轨迹和测试轨迹,然后计算训练轨迹和测试轨迹的距离,获得轨迹距离集,将轨迹距离集输入支持向量机,得到动作的分类结果。
进一步地,在计算训练轨迹的过程中训练降噪自动编码器,利用所述降噪自动编码器对训练动作视频集进行提取关节点数据、特征提取以及流形映射;
在计算测试轨迹时将测试数据集输入到训练后的降噪自动编码器中,降噪自动编码器对测试动作视频集进行提取关节点数据、特征提取以及流形映射;然后采用粒子滤波对轨迹进行实时预测。
进一步地,所述降噪自动编码器对训练动作视频集或测试动作视频集进行提取关节点数据,具体为:利用深度相机Kinect提取训练视频集或测试视频集中相对活跃的16个骨骼关节点的三维坐标。
进一步地,所述降噪自动编码器对训练动作视频集或测试动作视频集进行特征提取,包括以下步骤:
(1)计算所述16个骨骼关节点的平移矩阵和四元数旋转:所述平移矩阵代表骨骼关节点当前帧和前一帧的位置变化;所述四元数旋转代表骨骼关节点当前帧和前一帧的角度变化,骨骼关节点当前帧和前一帧的位置变化和角度变化形成骨骼关节点的运动特征;
(2)形成基于人体部位的运动特征:将人体分为9个部位,分别融合与所述9个部位相关的骨骼关节点的运动特征,形成基于人体部位的运动特征;人体所述9个部位分别为躯干、左上臂、左下臂、右上臂、右下臂、左上腿、左下腿、右上腿和右下腿。
进一步地,所述降噪自动编码器对训练动作视频集或测试动作视频集进行流形映射,具体包括以下步骤:将训练视频集或测试视频集中的每一个动作均表示为基于所述9个部位的运动特征的集合,将训练动作视频集或测试动作视频集的每个动作中9个部位的运动特征通过局部线性嵌入算法映射到低维流形上,每个动作形成与上述9个部位对应的9条部位轨迹,其中,与动作相关的部位轨迹为一条曲线,与动作不相关的部位轨迹是一个点;
其中,将每个动作中9个部位的运动特征通过局部线性嵌入算法映射到低维流形上具体步骤为:
(1)将每个动作中任何一个部位的运动特征的每一帧的状态Ft,t=1,2,...T看作高维流形上的一点,计算每一点Ft的k个近邻点;Ft,t=1,2,...T是9个部位中某一部位的每一帧的运动特征,t代表第t帧,T是总帧数;
(2)计算权值矩阵W;将Ft用它的k个近邻点的权值表示当前的运动特征,通过最小化损失函数来求出W:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北电力大学,未经东北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610820909.0/2.html,转载请声明来源钻瓜专利网。