[发明专利]一种基于递归神经网络的群体动作识别方法有效
申请号: | 201810971833.0 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109446872B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 舒祥波;严锐;唐金辉 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06V10/80;G06V10/764;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱宝庆 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 递归 神经网络 群体 动作 识别 方法 | ||
1.一种基于递归神经网络的群体动作识别方法,其特征在于,包括以下步骤:
步骤1,输入待检测的视频片段,取其中间T帧,并检测每帧中所有运动个体;
步骤2,在每一个时刻,用卷积神经网络提取所有运动个体的空间特征;
步骤3,建立Single-Person LSTM模型,将个体空间特征提供给Single-Person LSTM模型以捕捉个体时间动态特征;
步骤4,根据个体在整个活动过程中移动时间的顺序,将所有个体的时空特征输送到Interaction Bi-LSTM中以捕获上下文信息;
步骤5,将Interaction Bi-LSTM中的所有隐藏状态赋以动态权值,最终集成至一个Aggregation LSTM中,并将多组的聚合状态连接成对应时刻softmax层的输入;
步骤6,对所有时刻下的softmax分数取平均值作为群体活动识别的最终预测概率向量;
步骤3中的Single-Person LSTM模型为
其中,i为输入门控,f为忘记门控,o为输出门,g为输入调制门,c为存储单元,W*x和W*h为权重矩阵,b*是偏置向量,表示逐元素相乘,为激活函数;ht是一个隐藏的状态,它包含了个体在t时刻的动态特征;
步骤4中个体在整个活动过程中移动时间的长短通过个体全程动作强度来体现,全程动作强度越强时间越长,全程动作强度通过以下过程获得:
步骤S401,将连续T帧的每一像素点的水平、垂直位移向量叠加在一起
其中,i=1,2,...,T,和分别表示点(u,v)处的水平和垂直位移向量u=1,2,...,w,v=1,2,...,h,图像的分辨率为w×h;
步骤S402,获得第k个人在点(u,v)处的T帧连续运动信息SFk(u,v,c),c=1,···,2T;
步骤S403,获得第k个人的动作强度和全程动作强度:
其中,表示第k个人在t时刻的动作强度,MIk表示第k个人全程动作强度;
步骤4中将所有个体的时空特征输送到Interaction Bi-LSTM中以捕获上下文信息的具体过程为:
Interaction Bi-LSTM单元计算前向反馈序列和后向反馈序列分别从k=K→1和k=1→K两个方向迭代K个人,输出序列可表示为:
其中,k=1,2,···,K,H(*)由步骤3中LSTM的定义实现,和分别是权重矩阵,b*是偏置向量,◇表示采样操作;
步骤5的具体过程为:
步骤S501,构建Aggregation LSTM单元,将K个人的整个群体活动分为Ng个组进行识别,其中g=1,2,...,Ng,第g组个体的起始索引Sg和结束索引Eg定义为
Sg=(g-1)·K/Ng+1
Eg=g·K/Ng
步骤S502,对于视频片段中的第g组群体的第k个体,通过学习一个权重因子来控制个体在t时刻的Interaction LSTM的输出状态以捕捉第g组中的每个人在t时刻的潜在表示
其中Whe是权重参数矩阵,be是偏向量,exp(*)是指数函数;
步骤S503,Aggregation LSTM单元接受前一时刻隐层数据和当前时刻的
其中,Ztg是第g个子组在t时刻的特征表示;
步骤S504,获得整个活动的表示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810971833.0/1.html,转载请声明来源钻瓜专利网。