[发明专利]一种用于视频分析中的动作识别方法在审
申请号: | 201911200563.4 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942037A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 王敏;吴敏 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 视频 分析 中的 动作 识别 方法 | ||
1.一种用于视频分析中的动作识别方法,其特征在于,包括如下步骤:
(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;
(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;
(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征;
(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;
(5)根据损失函数对网络迭代训练,直至模型结果收敛。
2.如权利要求1所述的用于视频分析中的动作识别方法,其特征在于,步骤(1)中,计算叠加光流图具体包括如下步骤:
(11)首先计算光流图的光流矢量;对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt,在第t帧的像素点(u,v)处的位移矢量使用dt(u,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量;
(12)将长度为L的连续帧矢量场的水平分量和垂直分量叠加起来,形成总长为2L的输入光流矢量用来表示连续帧间的运动信息:
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度,对于任意像素点(u,v),叠加光流矢量表示为Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
3.如权利要求1所述的用于视频分析中的动作识别方法,其特征在于,步骤(3)中,对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征具体包括如下步骤:
在时间t融合两个网络中的特征图和其融合函数表示为f∶从而产生一张输出特征图为其中W,H,D分别表示的是特征图的宽,高以及相对应的特征图的通道数;
(31)首先在通道d上的相同空间位置i,j堆叠两个特征图:
其中
(32)对于步骤(31)中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器以及偏移参数在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为:
yconv=ycat*f+b,
其输出结果的通道数为D,过滤器的维度是1×1×2D,其中1≤i≤H,1≤j≤W,1≤d≤D,同时,这里的过滤器f用于将维度减少2倍,并且能够在相同的空间位置上对两个特征图xa,xb进行加权组合;
(33)对于步骤(31)中得到的融合后的时空特征图进行3D池化,将时间t=1...T上的时空特征图叠加起来,得到输入采用大小为W′×H′×T′的池化窗口对其进行最大池化操作;
(34)对于卷积融合前的光流特征进行3D池化,同步骤(33),将2D池化扩展到时间域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911200563.4/1.html,转载请声明来源钻瓜专利网。