[发明专利]基于Bi-LSTM-Attention模型的人体行为识别方法在审
申请号: | 201910048015.8 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109784280A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 卢先领;朱铭康;王骏 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 无锡市大为专利商标事务所(普通合伙) 32104 | 代理人: | 曹祖良;屠志力 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频帧 人体行为识别 神经网络 时序特征 特征向量 网络权 卷积神经网络 注意力机制 人体行为 深度特征 网络参数 大影响 识别率 自适应 向量 感知 学习 | ||
1.一种基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,包括以下步骤:
步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;
步骤S2,将步骤S1得到的特征向量传入到Bi-LSTM神经网络中进行处理,通过Bi-LSTM神经网络充分学习视频帧之间的时序特征;
步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。
2.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,
步骤S1中,InceptionV3模型将不同的卷积层通过并联的方式结合在一起,同时使用不同尺寸的卷积核对视频帧进行卷积操作,最后通过滤波器融合层把不同卷积核处理的特征向量拼接起来,通过全连接层输出深度特征矩阵用于传输到Bi-LSTM神经网络中。
3.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,
步骤S2具体包括:
wi(i=1…6)表示一层网络层到另一网络层的权重;{…ht-1,ht,ht+1…}表示LSTM神经网络中的前向传播层,前向传播层的输入是{…xt-1,xt,xt+1…}从前向后的特征序列;
{…ht+1',ht',ht-1'…}表示LSTM神经网络中的后向传播层,后向传播层的输入是{…xt+1,xt,xt-1…}从后向前的特征序列;
其中的xt表示所提取的视频帧通过InceptionV3模型提取深度特征后得到的特征向量;如下式:
ht=f(w1xt+w2ht-1+b1) (1)
h′t=f(w3xt+w5ht+1+b2) (2)
o′t=g(w4ht+b3) (3)
o″t=g(w6h′t+b3) (4)
ot=(o′t+o″t)/2 (5)
上式(1)、(2)、(3)、(4)中的f和g代表激活函数,b1、b2、b3、b4代表隐藏单元的偏置系数,o',o”为两个LSTM单元在相应时刻分别处理Inceptionv3层输出的特征向量的结果;把相应时刻的两个特征向量相加求和取平均值作为输出的时序特征向量。
4.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,步骤S3具体包括:
ot表示从Bi-LSTM神经网络中输出的第t个时序特征向量,然后把时序特征向量传入到注意力机制模型中,经过注意力机制模型中的隐藏层得到初始状态向量St;权重系数αt表示初始状态向量St在最终输出的状态向量Y中所占的比重大小;各个初始状态向量St与权重系数αt的乘积的累加和得到最终输出的状态向量Y;计算公式如下:
et=tanh(wtst+bt) (6)
tanh表示激励函数,n表示视频帧的数量;et表示第t个时序特征向量的状态向量St所决定的能量值,wt和bt表示权重和偏置;通过式(7)以e为底数各个部分能量值的次方与之前部分的能量值的累加和的比值可以得到对分类结果有多大影响的权重系数,由此实现了初始状态到注意力状态的转换;然后如式(8)得到最终输出的状态向量Y。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910048015.8/1.html,转载请声明来源钻瓜专利网。