[发明专利]一种用于视频分析中的动作识别方法在审
申请号: | 201911200563.4 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942037A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 王敏;吴敏 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 视频 分析 中的 动作 识别 方法 | ||
本发明公开了一种用于视频分析中的动作识别方法,包括如下步骤:(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征;(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;(5)根据损失函数对网络迭代训练,直至模型结果收敛。本发明能够在有限的时间规模内,尽量多的获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
技术领域
本发明涉及视频分析技术领域,尤其是一种用于视频分析中的动作识别方法。
背景技术
随着多媒体时代的到来,共享视频变得更加普遍,网络上视频的传播与获取变得越来越便捷,使得视频数据的数量急剧上升。针对数量巨大的视频数据,如何分析和利用这些数据的内容成为计算机视觉领域内的一个具有重要意义和研究价值的难题。视频分析人体动作的目标是获取视频中的图像序列,训练学习并且分析理解其中人的行为动作的含义。因此动作识别在信息获取、视频监控、人机交互等各个领域有着广泛的应用价值。
由于卷积神经网络在计算机视觉领域内的图像应用上得到了很好的成果,由此,研究学者们将其应用于视频分析来进行动作识别中的特征提取。单是获取视频图像中的空间、纹理、背景等静态信息对于复杂的识别任务是不够的,所以需要捕捉更多的动态信息,光流能够对视频中的时间信息有效地提取,被广泛地应用于视频分析任务中。
视频分析动作识别的重要研究内容之一是如何充分利用视频中的图像信息以及运动信息,同时这也是研究过程中亟需解决的难题。动作识别的主要目标是通过学习视频图像中人物的运动模式,将其与动作类别之间建立对应关系,从而实现理解人物的动作。因此首先需要解决如何充分提取融合视频中的图像和运动特征信息这一难点,才能够以此为基础进行后续的学习训练和分类识别。由此本发明增加了卷积融合层将提取到的时空特征融合并进行3D池化,同时不截断时间流,将训练后得到的融合时空流以及时间流再次融合,从像素水平对空间信息和时间信息建立起对应关系,从而实现更有效的特征融合。
发明内容
本发明所要解决的技术问题在于,提供一种用于视频分析中的动作识别方法,能够在有限的时间规模内,尽量多的获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
为解决上述技术问题,本发明提供一种用于视频分析中的动作识别方法,包括如下步骤:
(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;
(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;
(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化。同时光流网络不截断,进行3D池化后继续提取特征;
(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;
(5)根据损失函数对网络迭代训练,直至模型结果收敛。
优选的,步骤(1)中,计算叠加光流图具体包括如下步骤:
(11)首先计算光流图的光流矢量;对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt,在第t帧的像素点(u,v)处的位移矢量使用dt(u,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量;
(12)将长度为L的连续帧矢量场的水平分量和垂直分量叠加起来,形成总长为2L的输入光流矢量用来表示连续帧间的运动信息:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911200563.4/2.html,转载请声明来源钻瓜专利网。