[发明专利]一种基于改进长效递归深度卷积模型的人物动作识别方法有效
申请号: | 202010606907.8 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111914638B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 胡宸;陈志;史佳成;叶科淮;王仁杰;李玲娟;岳文静 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/774;G06V10/82;G06N3/04 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 长效 递归 深度 卷积 模型 人物 动作 识别 方法 | ||
1.一种基于改进长效递归深度卷积模型的人物动作识别方法,其特征在于,包括如下步骤:
步骤S1、输入一组连续堆叠的视频帧,帧与帧之间的一组位移矢量场表示为dt(u,v),后一帧与前一帧之间的位移矢量为(u,v),并将矢量场的水平和垂直分量dx和dy作为图像通道;
步骤S2、将输入的视频帧堆叠成L个连续帧的流动通道dx和dy,共形成2L个输入通道;构造用于任意帧τ的卷积神经网络输入体积Iτ如下:
u=[1;w],v[1;h],k=[1;L]
其中,u为宽度分量,v代表高度分量,k代表长度分量;将基于特征编码的时间矩阵Iτ(u,v,a)与RGB图像组成的三维矩阵Iτ2(u,v,a)分别作为时空卷积神经网络的输入,其中a∈[1,2L],是对L帧中一个点进行的编码,时间域上的神经网络多次经过由包含方向敏感的滤波器的卷积神经网络层,整流层和池化层迭代,其中散度,卷曲和剪切力也可以通过光流梯度进行计算,而RGB图像组成的那部分三维矩阵只需通过正常CNN的多次卷积池化滤波层迭代,最终得到在时间上和空间上帧与帧之间的相互独立的特征向量xt;
步骤S3、采用长效递归卷积神经网络将每个视觉输出特征向量xt通过归一化函数φv(.)进行特征转换,得到定长输出特征序列x1,x2,...,xn;将输出特征序列输入至递归序列学习模块,通过下述递归方程将隐藏状态映射到输出,进行时间动力学建模:
ht=g(Wxhxt+Whhht-1+bh)
zt=g(Whzht+bz)
其中g代表元素方向的非线性组合函数,xt代表输入,Wxh、Whh、Whz代表递归神经网络的模型参数,ht代表t时刻的隐藏状态,ht-1代表t前一时刻的隐藏状态,且h0=0;zt代表t时刻的输出;对于输出特征序列x1,x2,...,xn,可得h1,h2,…,hn和z1,z2…zn,bh代表t时刻的隐藏状态函数的偏差值,bz代表t时刻输出函数的偏差值;
步骤S4、将输出特征序列x1,x2,...,xn输入至暂态RNN组件,获得每一时刻的暂态序列y′1,y′2,...,y′n,采用字符串Hash的方法对暂态序列y′1,y′2,...,y′n进行编码;将暂态序列y′1,y′2,...,y′n映射成一个值y1;
步骤S5、计算暂态序列y′1,y′2,...,y′n与从y1到暂态序列y′1,y′2,...,y′n的映射的匹配程度;将Hash值转化成二进制编码,再将y1分别与每一个映射值的二进制编码求汉明距离d(x,y)=∑x⊕y,将汉明距离与预设阈值D比较;当汉明距离小于预设阈值D时,匹配成功,当汉明距离大于等于预设阈值D时,匹配失败;对暂态RNN组件进行更新,其中每一阶段的更新为之前所有的输入特征的一个总结,如下所示:
y′t=f(y′t-1,xt)
其中y′t是t时刻的输出,xt是t时刻的输入,y′t-1是t时刻上一阶段的输出;
步骤S6、将暂态序列y'1,y'2,...,y'n通过编码器编码的输出y1放入译码器,译码器利用前面所有的输入,获得输出行为序列y2,...,ym,计算出人物每个时刻最有可能的行为yt;
步骤S7、对人物每个时刻最有可能的行为yt进行极大似然估计,更新译码RNN组件的参数;基于输出特征序列和行为序列的组合x1,x2,...,xt,y1,y2,...,yt-1,得到而yt的条件分布如下:
p(yt|yt-1,yt-2,...,x1,x2,...,xt)=f(ht-1,xt-1)
其中p(yt|yt-1,yt-2,…,x1,x2…,xt)为t时刻的行为yt的条件概率,f(ht-1,xt-1)为上一个时刻的组件状态的线性组合;
步骤S8、将x1,x2,...,xt,y1,y2,...,yt-1序列合并成矩阵xk,则长效递归卷积神经网络中的编码器和译码器组件的学习目标是最大化yt的条件概率,即为:
其中pθ(yi|xi)为yi的条件概率;
步骤S9、在不同的训练集上训练长效递归卷积神经网络模型,获取每种特征行为的贡献率;将测试集中的特征序列输入到长效递归卷积神经网络模型中,获得每个行为yt的最大似然估计,将最大值与预先设定好的行为数据集比对,得到此时最可能的行为ft。
2.根据权利要求1所述的一种基于改进长效递归深度卷积模型的人物动作识别方法,其特征在于,所述步骤S4中将暂态序列y′1,y′2,...,y′n映射成一个值y1具体方法如下:
步骤S41、选取两个较大的质数M1,M2,和一个基底Base,采用双Hash的方法对y′1,y′2,...,y′n进行编码,给序列中的每一位的y′i赋予两个权值如下:
P1[i]=P1[i-1]*Base
P2[i]=P2[i-1]*Base
其中P1[i]是对输出序列第一次Hash时的位权值,P2[i]是对输出序列第二次Hash时的位权值;
步骤S42、构造Hash函数,遍历暂态序列y′1,y′2,...,y′n,对每一位y′i,用以下公式构造出两个Hash值:Hash1和Hash2;
Hash1[i]=(Hash1[i-1]*Base+y[i])%M1
Hash2[i]=(Hash2[i-1]*Base+y[i])%M2
其中M1和M2分别是之前选好的大质数,Base是选好的基底,Hash1[i]是第一次Hash时输出序列第i位的Hash值,Hash2[i]是第二次Hash时的输出序列第i位的Hash值;将暂态序列y′1,y′2,...,y′n映射成一个值y1,可得:
y1=Hash1[n]%M1+Hash2[n]%M2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010606907.8/1.html,转载请声明来源钻瓜专利网。