[发明专利]基于增进式图卷积神经网络的人体动作识别方法有效
申请号: | 202010094821.1 | 申请日: | 2020-02-14 |
公开(公告)号: | CN111310659B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 柯逍;柯力 | 申请(专利权)人: | 福州大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06V10/34;G06V10/762;G06V10/74;G06V10/764;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 丘鸿超;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增进 图卷 神经网络 人体 动作 识别 方法 | ||
1.一种基于增进式图卷积神经网络的人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:对每一视频提取与类别无关的时空对象,获得与活动相关的时空视频片段构成的训练集和验证集,并对不同对象提取外观和运动特征;
步骤S2:对训练集生成动作信息检测单元,用于定义每一对的时空视频片段的相似程度;
步骤S3:对获取的和增强的数据集利用注意力机制进行关键帧筛选;计算每帧表示的信息熵,选取熵小的帧作为训练视频的动作关键帧;
步骤S4:对筛选出来的关键帧视频利用人体姿态估计模型进行转码和标注;
步骤S5:采用高于重合度的阈值的边界框,进行姿态的精确估计,同时采用对称空间变换网络对人体姿态估计模型进行微调;
步骤S6:构建时空骨骼图卷积神经网络模型,处理人体姿态估计模型的输出结果;
步骤S7:使用训练集进行训练,并在训练的过程中对数据进行增强处理;
步骤S1对每一视频具体执行以下步骤:
步骤S11:采用高斯混合模型分割每帧视频中的前景区域;
步骤S12:在每个视频中生成对象候选区域,从每个所述对象候选区域中提取外观和运动特征;
步骤S13:将属于同一运动过程的相邻相似目标通过谱聚类进行时间链接,形成时空分割;获得与活动相关的时空视频片段;
步骤S2具体包括:
步骤S21:采用兴趣点特征和稠密轨迹描述每个时空视频片段:对于兴趣点的检测,使用长方形检测器,采用可分离线性滤波器计算视频序列的响应;对于局部特征描述,采用光流直方图和方向梯度直方图,分别描述兴趣点周围的物体的运动和外观信息;
步骤S22:对所有训练集的兴趣点特征进行K-means聚类,得到多个视觉单词的词汇,则每个时空视频片段都由该片段中出现的可视词直方图表示;
步骤S23:在对时空视频片段进行描述的基础上,利用标准光谱聚类方法生成动作信息检测单元M(vi,vz);用于定义每一对的时空视频片段vi和vz的相似程度:
其中,dstip表示在词带模型上时空兴趣点特征的欧式距离,dtraj是稠密轨迹特征的欧氏距离,ω是权重系数,i和z是表示时空视频片段的编号的参数;
步骤S24:将所有训练视频通过步骤S23生成的动作单元标签表示为A={a1,a2,…,an};
步骤S3具体包括:
步骤S31:以动作单元的共现性作为基本帧的特征fj∈Fi,其中Fi表示从训练视频Vi中提取的基于帧的特征集;
步骤S32:重复步骤S31,构造特征集F=F1∪F2…∪FN,该特征集从属于不同类别的N个训练视频中提取;
步骤S33:计算每个基于帧的fj特征的信息熵E(fj,T):
E(fj,T)=-∑cPc(fj,T)log2(Pc(fj,T))
T为训练视频的集合;
其中Pc(fj,T)为动作类别c占所有类别中的视频特征比例,具体计算公式如下:
其中,上式的分子是在动作类别c中包含基于帧的特征fj的训练视频的数目,分母是在所有类别训练集中包含特征fj训练视频的数目;yi为训练视频Vi的动作类别;
步骤S34:所有训练视频经过步骤S31-步骤S33提取视频关键帧之后,构造字典F′=F1′∪F2′∪…Fi′…FN′,其中Fi′代表含有动作的训练视频Vi中关键帧的特征;
在步骤S4中,所述人体姿态估计模型采用YOLO-V3构建,进行对象位置的预测;根据所述人体姿态估计模型对每个锚盒进行预测四个坐标的偏移ux,uy,uw,uh,生成预测坐标bx,by,bw,bh;在训练期间,采用平方误差损失计算坐标的损失;并根据当前预测获得的边界框相对于真实标签对象重合度的阈值预测每个边界框对象得分;
步骤S5具体包括:
采用对称空间变换网络将估计的人体姿态反映射回原始图像的坐标中;所述对称空间变换网络转换和生成网格计算公式如下:
其中β1,β2和β3为二维空间向量,表示转换之前的坐标,表示转换之后的坐标;由于对称空间变换网络是空间变换网络的逆过程,得到:
其中,和是二维空间向量;
步骤S6具体包括:
步骤S61:定义第v个人的姿态Pv,有N′个关节点记为:其中表示姿态Pv的第N'个关节点部位的坐标,表示该坐标位置的置信度的分数;
步骤S62:选取最大置信的姿态作为参考,利用消去法则将靠近参考的区域框进行消除;重复这一过程,直至消除多余的姿势并且最后只有唯一的姿势标识;
所述消去法则根据姿态的距离衡量姿态之间的相似度,记为d(Pv,Pv′|Λ),其中的Λ表示函数d的一个参数的集合,采用阈值ε作为消除标准;所述消去法则g(Pv,Pv′|Λ,ε)具体定义为:
g(Pv,Pv′|Λ,ε)=I[d(Pv,Pv′|Λ),θ≤ε]
其中,Pv和Pv′表示不同人的姿态,I表示指示函数;
如果姿态距离相似度d(Pv,Pv′|Λ)小于等于阈值ε,则g(Pv,Pv′|Λ,ε)输出为0;
步骤S63:设姿态Pv的区域框为Hv,定义姿态距离函数dpose(Pv,Pv′)以及软匹配函数:
其中,表示姿态Pv的第m个关节点部位的坐标,表示该坐标位置的置信度的分数;表示关节点m的区域位置;σ1表示集合参数Λ里的一个参数;步骤S7具体包括:
步骤S71:构建分布函数G(μg|J)模拟不同姿态之间的真实值和实际预测值存在的相对偏移量分布,其中μg代表由检测器检测到人体位置坐标和标注实际人体坐标之间的偏移量,J代表一个人对应的姿态;
步骤S72:构建分布函数G(μg|atom(J)),其中atom(J)代表姿态J根据关节点部位分解获得的原子部位;对齐所有姿态,并按具有相同的长度肢体进行排列;
步骤S73:采用k-means聚类得到的聚类中心作为人体姿态的原子姿态,对于每一个原子姿态,用α表示,首先计算真实值和检测区域边框的偏移量,接着使用该方向上的真实边框的边长进行归一化处理;处理后,偏移量形成一个频率分布,最后将数据拟合成高斯混合分布;对于不同的原子姿态,得到不同的高斯混合分布;
步骤S74:在训练网络的过程中,对于每一个在训练集中标注的姿态J,首先找到对应的原子姿态α,然后通过密集采样计算G(μg|α)得到增强的训练建议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010094821.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种时钟同步方法及系统
- 下一篇:节点通信方法和装置