[发明专利]基于非负矩阵分解的人体动作视频识别方法有效

申请号：	201410161014.1	申请日：	2014-04-21
公开（公告）号：	CN103902989B	公开（公告）日：	2017-03-01
发明（设计）人：	韩红;曹赛;洪汉梯;李楠;陈建;史媛媛	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/54
代理公司：	陕西电子工业专利中心61205	代理人：	田文英,王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于矩阵分解人体动作视频识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于图像处理技术领域，更进一步涉及视频图像中的一种基于非负矩阵分解的人体动作视频识别方法。本发明可用于智能监控、视频检索、人机交互、娱乐及体育运动分析等。

背景技术

人体动作视频识别的目的在于，在成功实现动作跟踪、特征提取的基础上，通过分析获得的人体动作视频特征参数，自动识别人体动作视频类型。人体动作视频识别技术在视觉监督、人机交互、视频会议、虚拟现实等领域均有着广泛的应用前景。

目前已经有很多种动作视频识别技术被提出，特别是目前利用广泛的基于整体运动特征的方法。它将人体运动区域从背景中分离出来，并对该区域的运动和表述进行整体性的描述，如轮廓、剪影、边缘、光流、梯度等。该方法能够编码较多的信息，因此具有较强的表现力，识别能力强，但是，由于这些方法提取特征复杂，计算量大，容易受到背景的影响，而且在场景复杂的情况下，整体特征的生成需要背景减除和目标跟踪等较多的预处理，识别结果往往不尽如人意。

浙江大学申请的专利“一种基于模板匹配的视点无关的人体动作识别方法”（专利申请号：200810059129.4，公开号：CN101216896）中公开了一种基于模板匹配的方法。该方法首先为各个样例动作计算运动历史图并提取相应极坐标特征来构造动作模板，然后计算待定识别动作的特征并投射至模板动作子空间中得到低维坐标，计算坐标与模板球面之间的距离，选择最近的作为分类结果。该方法虽然操作简单，但是仍然存在的不足是，需要进行背景减除，易受到背景环境的影响，识别率低。

上海交通大学申请的专利“一种人体动作识别的方法”（专利申请号：201310054812.X，公开号：CN103164694A）中公开一种计算机视觉与模式识别领域的人体动作识别的方法。该方法使用了一种包含时间和空间信息的特征来表达当前帧人体的运动状态，然后再通过一种图论半监督方法设计分类器，从而达到识别人体动作的目的。该方法虽然在观察角度不同时取得较高的识别率，但是仍然存在的不足是：特征维数较高，计算量大，容易受到外部光照变化的影响，适用性不不强。

发明内容

本发明目的是针对上述已有技术的不足，提出的一种基于非负矩阵分解的人体动作视频识别方法。本发明与现有人体动作视频识别技术相比识别率高，适用性强。

实现本发明目的的具体思路是，在充分考虑人体动作视频特征提取易受背景环境、尺度变化的影响且提取的特征维数较高的情况下，先将输入的人体动作视频图像预处理，采用多尺度2DHarris关键点检测算子提取空间兴趣点，构建由图像块组成的立方体，提取每个立方体的特征向量，相互连接构造特征矩阵，再利用特征矩阵来训练出一个超完备字典，采用正交匹配跟踪OMP公式，计算人体动作视频测试集特征矩阵的稀疏表示系数向量，再采用稀疏重构公式，对人体动作视频测试集特征矩阵进行稀疏重构，得到残差矩阵，最后根据残差矩阵元素值对人体动作视频测试集进行分类。本发明在特征提取过程中采用检测空间兴趣点的方法，没有采用背景分割的方法，从而能准确的从背景环境中提取出包含人体动作部分的图像，识别率高，其次，采用多尺度2DHarris检测算子，检测空间兴趣点不受光照及尺度变化的影响，所以具有更强的适用性。

本发明实现的具体步骤包括如下：

(1)预处理视频图像：

(1a)输入90个人体动作视频图像；

(1b)在输入的人体动作视频图像中，任选80个人体动作视频图像作为一个人体动作视频训练样本集，其余的10个人体动作视频图像各自作为一个人体动作视频训练样本集；

(1c)利用矩阵实验室matlab的横向连接字符串strcat函数，将人体动作视频训练样本集和人体动作视频测试样本集中的人体动作视频图像，转换为时间连续的单幅图片序列；

(1d)对单幅图片序列进行隔行采样，获得预处理的降采样图片序列；

(2)检测空间兴趣点：

(2a)分别将人体动作视频训练样本集和人体动作视频测试样本集中的降采样图片序列等分成8段；

(2b)在每段降采样图片序列的第一帧图片中，采用多尺度2DHarris检测算子公式，计算获得每段降采样图片序列的第一帧图片中所有像素点处的响应值；

(2c)将每段降采样图片序列的第一帧图片中像素点处的响应值大于等于1000的像素点定义为空间兴趣点；

(3)构建立方体：

(3a)在每个空间兴趣点所在的第一帧图片上，截取一个以空间兴趣点为中心，以24个像素点为边长的正方形图像块；