[发明专利]一种基于注意力机制的神经网络的人体动作识别方法有效
申请号: | 201910846654.9 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110728183B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 侯永宏;李岳阳;肖任意;李翔宇;郭子慧;刘艳 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 陈娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 神经网络 人体 动作 识别 方法 | ||
1.一种基于注意力机制的神经网络的人体动作识别方法,其特征在于:包括如下步骤:
1)构建特征提取和分类神经网络,所述的神经网络包含两个子模型,分别为深度卷积子网络和注意力子网络;
2)构建端到端的有监督训练方案,处理原始骨架序列,将骨架序列编码为由彩色时空图组成的三维矩阵,将其输入到深度卷积子网络中对其进行特征提取,输出一个向量P1;
3)在注意力子网络中,提取表示关节运动程度的手工制作的特征,捕捉该动作的关键节点,输出一个向量P2;
4)最后将P1与P2融合,通过最优化手段降低损失函数来训练模型,以至网络达到收敛,得到最终的识别准确率;
深度卷积子网络采用层叠卷积神经网络的结构,注意力子网络采用自定义的层和全连接层组合;
步骤2)中
其中P1为深度卷积子网络输出的深层次时空特征,表示该动作属于标签空间中每一个类别的概率、W1∈RM×C和b1∈RM×1分别表示全连接层的权重矩阵和偏置向量;M表示标签类别数量,C为深度卷积子网络的输出维度;
为深度卷积子网络提取的时空特征,O表示从骨架序列编码的彩色图像,GAP表示全局平均池化层,是DenseNet-161中的GAP的输出、Conv为卷积层,ReLU为激活函数,BN为批归一化层;
步骤3)中
P2=W2V+b2
其中,P2为注意力向量,W2∈RM×N和b2∈RM×1分别是全连接层的权重矩阵和偏置向量,
V=VX⊙VY⊙VZ
⊙表示逐元素乘法,
其中分别表示骨架序列中第k个关节的X、Y、Z坐标的平均值,xk、yk、zk分别表示骨架序列中第k个关节的X、Y、Z坐标,xk=[x1,k,…,xt,k,…,xT,k],yk=[y1,k,…,yt,k,…,yT,k],zk=[z1,k,…,zt,k,…,zT,k],T表示骨架序列的帧数;
步骤4)具体为:将上述所得的深层次时空特征P1和注意力向量P2按元素相乘以获得动作分类的最终结果,该结果表示如下:
其中表示预测的结果,采用交叉熵损失函数来测量真实类标签y和预测结果之间的差异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910846654.9/1.html,转载请声明来源钻瓜专利网。