[发明专利]一种基于时序注意力机制的人脸连续表情识别方法在审
申请号: | 202110083484.0 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112766172A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 樊亚春;程厚森;税午阳 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时序 注意力 机制 连续 表情 识别 方法 | ||
1.一种基于时序注意力机制的人脸连续表情识别方法,其特征在于,包括以下步骤:
步骤1,输入视频中的帧序列,从视频帧序列中提取一段子序列,长度为T,帧步长为D,假设第i帧为要进行情感识别的目标帧,那么第到第i-1帧,以及第i+1帧到第帧,用于提供上下文信息;
步骤2,对子序列中每一帧图像进行人脸对齐,并且进行图像归一化;
步骤3,将该子序列输入到三维卷积神经网络(3DCNN)中,并引入时间注意力层和空间注意力层,学习时空上下文之间的依赖关系,提取人脸图像的时空显著特征,并与第i帧特征共同合成该帧的时空特征图;
步骤4,将提取到的时空特征图,输入到由Softmax分类层和情感分段间隔预测层组成的“期望回归层”,Softmax分类层用于将取值范围为[-1,1]的连续值,离散化为21个类别的分数段,从而将愉悦度和激活度的回归问题,转化为分数段的分类问题,输出分数段的概率分布;期望回归层中引入情感分段间隔预测层的作用是,使用带有可学习参数的多层感知机(MLP),来预测分数段的分段间隔,生成更符合原始数据分布的非均匀分段;
步骤5,将Softmax分类层输出的概率分布,与分段间隔预测层输出的分段值向量,进行内积运算,输出愉悦度和激活度的期望值。
2.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述步骤1中,选取时间长度为T的帧序列来提取特征,提取单帧图像中所含的空间视觉特征,同时提取到时间维度上的关联信息。
3.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:
所述步骤2中,采用多任务卷积神经网络(MTCNN)算法进行快速人脸对齐,并且将人脸缩放到预定尺寸。
4.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:
所述步骤3中,使用基于三维残差网络(Resnet3D)的骨干网络,并且加入时间注意力层和空间注意力层,时间注意力层用于捕捉帧与帧之间的依赖关系,对于关键帧给予更高的权重;空间注意力层用于捕捉空间位置之间的依赖关系,对于对表情贡献更大的区域给予更高的权重,两者结合后,帮助三维卷积操作更好地提取时空特征。
5.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述步骤4中,Softmax分类层是一个含有21个单元的全连接层,输出是愉悦度或激活度落在各个分数段内的概率,使用Softmax函数进行归一化,分数段划分为-1.0,-0.9,-0.8,…,0.8,0.9,1.0,共21段。
6.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述步骤4中,情感分段间隔预测层是一个含21个单元的全连接层,输出的是21个分段关于其中心的偏移量,使用Tanh函数缩放到[-0.1,0.1]的范围内;偏移后的分数段中心为-1.0±0.1,-0.9±0.1,-0.8±0.1,…,0.8±0.1,0.9±0.1,1.0±0.1。
7.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述步骤5中,将Softmax分类层输出的概率向量与偏移后的分段值向量进行内积,得到愉悦度或激活度期望值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110083484.0/1.html,转载请声明来源钻瓜专利网。