[发明专利]基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法有效
申请号: | 202110752977.9 | 申请日: | 2021-07-03 |
公开(公告)号: | CN113420703B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 夏小涵;蒋冬梅 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 云燕春 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 特征 提取 注意力 机制 建模 动态 面部 表情 识别 方法 | ||
1.基于多尺度特征提取和多注意力机制的动态面部表情识别方法,其特征在于,包括如下步骤:
1、对输入原始视频进行预处理
首先,从二维视频中进行人脸图片的提取;针对动态面部表情进行实时的人脸追踪与对齐,在二维视频中实现三维人脸配准,从而实现精准的人脸提取与对齐;然后将提取到的人脸图像进行旋转、缩放和标准化;将人脸划分为九个互相重叠的区域;分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3);两眼之间和鼻根的区域(P4);左眼区域(P5);右脸颊和右嘴角区域(P6);鼻子和嘴巴上部区域(P7);左脸颊和左嘴角区域(P8);嘴巴和下巴区域(P9);然后这些切分的区域块被归一化为统一尺寸;随后,将这九个区域块与全脸一起,作为十个互相独立的流,输入模型进行多尺度时空特征的提取;
2、对预处理后的人脸图片序列进行多尺度时空特征提取
a)局部时空特征提取
基于两流的CNN架构,能够从一个区域块序列中提取局部时空信息;其中一个分支是一个2DCNN,包含3个卷积层和1个全连接层,以对目标帧进行该区域块上的空间特征提取,所述目标帧即该序列的最后一帧;基于此分支,可以从一个特定的区域块得到一个维度为Np_2d的特征向量,表示该区域块中包含的空间信息;另一个分支是一个3DCNN,用来对输入的序列进行局部的动态时序信息提取;该3DCNN的结构和2DCNN分支的结构相同,唯一的区别是用三维卷积替代二维卷积,从而实现时序上的信息编码;基于该分支,将得到一个维度为Np_3d的特征向量,表示该区域块中包含的时序信息;然后,将上述两个分支得到的特征进行串接,表示该区域块对应的局部时空特征,记为Vp;
b)全局时空特征提取
采用两流的CNN架构来对全脸的图像序列进行时空特征的提取,在2DCNN分支中,在ResNet50预训练模型的基础上,使用公开的AffectNet表情数据库进行微调,使模型学习到的深度特征更符合带有情感的表情信息;从微调后的ResNet50所提取的特征维度为Nf_2d,表示在整张人脸上所提取的全局空间特征;在3DCNN分支中,借鉴预训练好的R(2+1)D模型,在动作识别数据库Kinetics-400上预训练好的R(2+1)D模型,对应的特征维度为Nf_3d,表示在整张人脸上学习到的全局时间特征;最后,将这两个分支的输出进行串接,即提取的全局时空特征,记为Vf;
3、利用时空多注意力机制方法进行建模
a)通过空间注意力实现的局部特征加权建模
对于空间注意力的实现,首先将CNN学到的局部时空特征表示Vp输入一个单层感知机,以得到其对应的隐层表示Hs:
Hs=tanh(WsVp+bs)
其中,Ws和bs分别表示该感知机的权重和偏置参数,tanh是激活函数;为了衡量九个区域块的重要性程度,我们定义一个上下文向量Cs;计算Hs和Cs的内积来衡量两者之间的相似度;使用Sigmoid函数来激活Hs和Cs的相似度,从而获得空间注意力权重
在计算每个区域块对应的空间注意力权重之后,就可以得到加权后的局部特征:
b)通过时间注意力实现的时序帧加权建模
首先定义每一帧图像为If,以及时序上的上下文向量Ct;然后,计算每一帧图片在RGB三个通道上的均值Mf,得到其对应的隐层表示Ht:
Ht=tanh(WtMf+bt)
其中,Wt和bt分别表示该感知机的权重和偏置参数,tanh是激活函数;然后,每帧图片对应的时间注意力权重αtf可以通过Sigmoid激活函数得到:
因此,每个图像帧可以编码为TEMatted:
加权后的RGB图像序列被输入模型中的2D/3DCNN进行多尺度的时空特征提取;
4、识别视频中每一帧图片中的面部表情
经过上述多尺度特征提取和多注意力机制作用后,模型将输出基于整张人脸的全局特征Vf以及基于人脸分块的加权局部特征SPAatted,两者进行串接后用来表示目标帧;然后,用一个单层感知机和softmax对该帧的表情类别进行预测;最终,模型将输入该视频的每一帧图片中的面部表情类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110752977.9/1.html,转载请声明来源钻瓜专利网。