[发明专利]一种基于改进长效递归深度卷积模型的人物动作识别方法有效

申请号：	202010606907.8	申请日：	2020-06-29
公开（公告）号：	CN111914638B	公开（公告）日：	2022-08-12
发明（设计）人：	胡宸;陈志;史佳成;叶科淮;王仁杰;李玲娟;岳文静	申请（专利权）人：	南京邮电大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V40/20;G06V10/774;G06V10/82;G06N3/04
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	徐激波
地址：	210046 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进长效递归深度卷积模型人物动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进长效递归深度卷积模型的人物动作识别方法，其特征在于，包括如下步骤：

步骤S1、输入一组连续堆叠的视频帧，帧与帧之间的一组位移矢量场表示为d_t(u,v)，后一帧与前一帧之间的位移矢量为(u,v)，并将矢量场的水平和垂直分量d^x和d^y作为图像通道；

步骤S2、将输入的视频帧堆叠成L个连续帧的流动通道d^x和d^y，共形成2L个输入通道；构造用于任意帧τ的卷积神经网络输入体积I_τ如下：

u＝[1；w],v[1；h],k＝[1；L]

其中，u为宽度分量，v代表高度分量，k代表长度分量；将基于特征编码的时间矩阵I_τ(u,v,a)与RGB图像组成的三维矩阵I_τ2(u,v,a)分别作为时空卷积神经网络的输入，其中a∈[1,2L]，是对L帧中一个点进行的编码，时间域上的神经网络多次经过由包含方向敏感的滤波器的卷积神经网络层，整流层和池化层迭代，其中散度，卷曲和剪切力也可以通过光流梯度进行计算，而RGB图像组成的那部分三维矩阵只需通过正常CNN的多次卷积池化滤波层迭代，最终得到在时间上和空间上帧与帧之间的相互独立的特征向量x_t；

步骤S3、采用长效递归卷积神经网络将每个视觉输出特征向量x_t通过归一化函数φ_v(.)进行特征转换，得到定长输出特征序列x₁,x₂,...,x_n；将输出特征序列输入至递归序列学习模块，通过下述递归方程将隐藏状态映射到输出，进行时间动力学建模：

h_t＝g(W_xhx_t+W_hhh_t-1+b_h)

z_t＝g(W_hzh_t+b_z)

其中g代表元素方向的非线性组合函数，x_t代表输入，W_xh、W_hh、W_hz代表递归神经网络的模型参数，h_t代表t时刻的隐藏状态，h_t-1代表t前一时刻的隐藏状态，且h₀＝0；z_t代表t时刻的输出；对于输出特征序列x₁,x₂,...,x_n，可得h₁,h₂,…,h_n和z₁,z₂…z_n，b_h代表t时刻的隐藏状态函数的偏差值，b_z代表t时刻输出函数的偏差值；

步骤S4、将输出特征序列x₁,x₂,...,x_n输入至暂态RNN组件，获得每一时刻的暂态序列y′₁,y′₂,...,y′_n，采用字符串Hash的方法对暂态序列y′₁,y′₂,...,y′_n进行编码；将暂态序列y′₁,y′₂,...,y′_n映射成一个值y₁；

步骤S5、计算暂态序列y′₁,y′₂,...,y′_n与从y₁到暂态序列y′₁,y′₂,...,y′_n的映射的匹配程度；将Hash值转化成二进制编码，再将y₁分别与每一个映射值的二进制编码求汉明距离d(x,y)＝∑x⊕y，将汉明距离与预设阈值D比较；当汉明距离小于预设阈值D时，匹配成功，当汉明距离大于等于预设阈值D时，匹配失败；对暂态RNN组件进行更新，其中每一阶段的更新为之前所有的输入特征的一个总结，如下所示：

y′_t＝f(y′_t-1,x_t)

其中y′_t是t时刻的输出，x_t是t时刻的输入，y′_t-1是t时刻上一阶段的输出；

步骤S6、将暂态序列y'₁,y'₂,...,y'_n通过编码器编码的输出y₁放入译码器，译码器利用前面所有的输入，获得输出行为序列y₂,...,y_m，计算出人物每个时刻最有可能的行为y_t；

步骤S7、对人物每个时刻最有可能的行为y_t进行极大似然估计，更新译码RNN组件的参数；基于输出特征序列和行为序列的组合x₁,x₂,...,x_t,y₁,y₂,...,y_t-1，得到而y_t的条件分布如下：

p(y_t|y_t-1,y_t-2,...,x₁,x₂,...,x_t)＝f(h_t-1,x_t-1)

其中p(y_t|y_t-1,y_t-2,…,x₁,x₂…,x_t)为t时刻的行为y_t的条件概率，f(h_t-1,x_t-1)为上一个时刻的组件状态的线性组合；

步骤S8、将x₁,x₂,...,x_t,y₁,y₂,...,y_t-1序列合并成矩阵x_k，则长效递归卷积神经网络中的编码器和译码器组件的学习目标是最大化y_t的条件概率，即为：

其中p_θ(y_i|x_i)为y_i的条件概率；

步骤S9、在不同的训练集上训练长效递归卷积神经网络模型，获取每种特征行为的贡献率；将测试集中的特征序列输入到长效递归卷积神经网络模型中，获得每个行为y_t的最大似然估计，将最大值与预先设定好的行为数据集比对，得到此时最可能的行为f_t。

2.根据权利要求1所述的一种基于改进长效递归深度卷积模型的人物动作识别方法，其特征在于，所述步骤S4中将暂态序列y′₁,y′₂,...,y′_n映射成一个值y₁具体方法如下：

步骤S41、选取两个较大的质数M₁，M₂，和一个基底Base，采用双Hash的方法对y′₁,y′₂,...,y′_n进行编码，给序列中的每一位的y′_i赋予两个权值如下：

P₁[i]＝P₁[i-1]*Base

P₂[i]＝P₂[i-1]*Base

其中P₁[i]是对输出序列第一次Hash时的位权值，P₂[i]是对输出序列第二次Hash时的位权值；

步骤S42、构造Hash函数，遍历暂态序列y′₁,y′₂,...,y′_n，对每一位y′_i，用以下公式构造出两个Hash值：Hash₁和Hash₂；

Hash₁[i]＝(Hash₁[i-1]*Base+y[i])％M₁

Hash₂[i]＝(Hash₂[i-1]*Base+y[i])％M₂

其中M₁和M₂分别是之前选好的大质数，Base是选好的基底，Hash₁[i]是第一次Hash时输出序列第i位的Hash值，Hash₂[i]是第二次Hash时的输出序列第i位的Hash值；将暂态序列y′₁,y′₂,...,y′_n映射成一个值y₁，可得：

y₁＝Hash₁[n]％M₁+Hash₂[n]％M₂。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010606907.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种降低LETID的P型晶体硅太阳能电池的制备方法
下一篇：一种基于5G网络的智能反蜂群式无人机方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进长效递归深度卷积模型的人物动作识别方法有效

专利文献下载