[发明专利]基于混合特征增强网络的动态序列非约束表情识别方法有效
申请号: | 202111354855.0 | 申请日: | 2021-11-16 |
公开(公告)号: | CN113963421B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 童莹 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/25;G06N3/0464 |
代理公司: | 南京创略知识产权代理事务所(普通合伙) 32358 | 代理人: | 徐晓莲 |
地址: | 211167 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 特征 增强 网络 动态 序列 约束 表情 识别 方法 | ||
1.基于混合特征增强网络的动态序列非约束表情识别方法,其特征在于:包括如下步骤
步骤1、对人脸表情视频数据进行人脸检测,截取人脸ROI区域,去除背景干扰,得到动态序列人脸表情数据;
步骤2、将动态序列人脸表情数据以N帧为一组的分为多组序列,并对多组序列进行分析,提取它们的表情特征,且每组序列之间有N/2帧图像重叠;
步骤3、将每组的N帧图像顺序输入单帧特征增强CNN网络和多帧特征增强自注意网络,得到N个2048维特征向量;
步骤4、将N个2048维特征向量相加,得到最终的2048维人脸表情深层特征,再经过两层全连接层将其映射到样本标记空间,实现面部表情分类;
步骤4中所述2048维人脸表情深层特征经过两层全连接层之间还依次经过BN批标准化运算、ReLU激活函数运算和DropOut运算;
所述单帧特征增强CNN网络的每个卷积模块均依次进行卷积运算、BN批标准化运算、ReLU激活函数运算和Max pooling最大池化四种运算;
步骤5、计算出同一个视频的多组序列所属表情的概率值,其中最大平均概率值对应的表情类别即为最终的识别标签;
其中,步骤3中的单帧特征增强CNN网络采用VGG16网络作为单帧特征增强CNN网络的骨干网络,所述VGG16网络上设有浅层特征增强模块以及深层特征增强模块,且所述浅层特征增强模块和深层特征增强模块各自输出的特征相融合,用于获取不同层次的人脸表情空间信息;
所述浅层特征增强模块包括有并行使用的2个1*1卷积模块和2个3*3卷积模块;
步骤3具体包括
步骤3.1、向单帧特征增强CNN网络连续输入N帧图像,得到该N帧图像对应的特征向量x1,x2,...,xN;
步骤3.2、将N帧图像对应的特征向量x1,x2,...,xN同时输入多帧特征增强自注意网络,得到具有差异性的显著特征x1*,x2*,...,xN*;
所述VGG16网络包括有依次分布的2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块;
所述单帧特征增强CNN网络的处理步骤包括
步骤Ⅰ、输入尺寸为224*224*3的人脸表情图像;
步骤Ⅱ、上述图像依次经过2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块,得到14*14*512大小的特征矩阵;
步骤Ⅲ、所述特征矩阵经过所述深层特征增强模块后,输出1*1*1024大小的深层语义增强特征;
步骤Ⅳ、在VGG16网络的3组3*3*256卷积模块后引出一条浅层特征增强支路,用于输出浅层增强特征,其输出的浅层增强特征与所述深层语义增强特征相拼接,得到最终的人脸表情特征向量,
所述人脸表情特征向量用于描述动态序列中每帧图像的面部表情空间信息,尺寸为1*1*2048;
所述步骤3中的深层特征增强模块具有3*3*1024卷积模块,所述深层特征增强模块的3*3*1024卷积模块用于输出7*7*1024特征矩阵,
所述深层特征增强模块的3*3*1024卷积模块包含有卷积运算、BN批标准化运算、ReLU激活运算和Maxpooling最大池化四种运算,
所述7*7*1024特征矩阵经过全局平均池化GAP运算,得到1*1*1024的特征向量;
所述步骤3中使用两层全连接层FC以及ReLU激活函数和Sigmoid激活函数,得到1024个特征通道的权值,并将其与GAP输出特征向量相乘,用于根据特征通道重要程度赋予不同权值,并提高深度语义表情特征的准确性;
S=Fex(Z,W)=σ(W2δ(W1Z))(2)
Fscale(zk,sk)=sk·zk(k=1,2,..,C)(3)
步骤3具体还包括如下
①.求出输入特征张量U∈RH*W*C的每个通道的全局平均值,计算公式如式(1)所示;
其中,H和M为特征张量的长和宽,C为特征张量的通道数,Uk 为特征张量U的第k个通道特征图,zk为Uk的全局平均值;
计算所有通道的全局平均值,得到平均向量Z=[z1,z2,...,zC];
在深层特征增强模块中,式(1)用GAP模块实现;
②.分析特征通道的重要性并求其权值,计算公式如式(2)所示;
首先用权值矩阵对平均向量Z∈RC×1进行降维运算,r为下降系数;
其次用δ(·)函数对W1Z进行非线性运算;
然后再用权值矩阵进行升维运算;
最后带入σ(·)函数计算得到权值向量S=[s1,s2,...,sC];
③.将平均向量Z的每个全局平均值zk乘以对应的权值sk,用以突出深度语义表情特征中的重要信息,提高判别能力,计算公式如式(3)所示。
2.根据权利要求1所述的基于混合特征增强网络的动态序列非约束表情识别方法,其特征在于:
所述多帧特征增强自注意网络的处理步骤包括
将单帧特征增强CNN网络输出的连续N帧图像的人脸表情特征表示为矩阵形式大小为N*2048,采用Q=WqX,K=WkX,V=WvX,计算Q、K、V,即自注意机制的查询Query、键Key、值Value,得到所述K、V、Q均是大小为N*2048的权值矩阵,其中,W为不同的权值矩阵,大小为N*N;
通过S*【QKT】得到注意力权值大小,其中S是一个另外设置的一个超参数,用于抑制注意力权值大小,
QKT描述了输入特征矩阵X中每帧特征向量间的相关性,即注意力权值矩阵,其中α是q向量和k向量相乘得到的数值;
将QKT中每一行注意力权重归一化为0到1之间,再与V相乘,得到差异性的显著特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111354855.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:管道相交连接时的可调高度滑动支座
- 下一篇:可移动式截洪结构