[发明专利]一种基于变分自编码器的人脸表情识别方法有效
申请号: | 202010313704.X | 申请日: | 2020-04-20 |
公开(公告)号: | CN111582059B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 董红斌;许劲;张万松;杨磊 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编码器 表情 识别 方法 | ||
1.一种基于变分自编码器的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:输入待识别的人脸图像数据集,取部分人脸图像构建训练集;
步骤2:通过Lib人脸检测算法对训练集中人脸图像进行处理,获得每幅图像中人脸的方形边界框;
步骤3:从训练集中选择一幅带有方形边界框的人脸图像,在边界框的基础上基于不同的边距对人脸图像进行裁剪,获得不同边距的人脸方形边界框图像;
步骤4:将不同边距的人脸方形边界框图像输入到预先训练好的卷积神经网络模型中,卷积神经网络模型输出人脸图像的三个欧拉角,即左右翻转角、平面旋转角、上下俯仰角;
步骤5:通过组合损失函数,比较不同边距下人脸图像欧拉角的平均误差,确定最优的边距K;将最优边距K时卷积神经网络模型输出的三个欧拉角作为人脸图像的面部姿势;
步骤6:判断是否完成训练集中全部人脸图像的面部姿势提取;若未完成,返回步骤3;
步骤7:将训练集中的人脸图像输入到变分自编码器中进行训练;
步骤8:变分自编码器训练完成后,在正态分布N(0,I)下进行采样,将采样到的隐变量向量输入到变分自编码器的解码器中进行重构,生成不同姿势和表情的人脸图像;
步骤9:将步骤8中生成的图像与步骤7中训练集的原始图像共同作为训练样本输入到分类器模型中进行训练,学习不同姿势和表情的人脸图像的特征信息;
步骤10:将待识别的人脸图像数据集中其他人脸图像输入到训练好的分类器模型中,通过分类器模型中的全连接层对特征信息进行分类,实现非正面条件下不同姿势的人脸表情识别。
2.根据权利要求1所述的一种基于变分自编码器的人脸表情识别方法,其特征在于:所述的步骤7中将训练集中的人脸图像输入到变分自编码器中进行训练的方法具体为:
步骤7.1:通过变分自编码器对人脸图像的特征进行学习,获得人脸图像的均值向量和方差向量;
步骤7.2:将人脸图像的均值向量和方差向量按照正态分布N(0,I)进行采样,得到包含不同姿势和表情潜在属性的隐变量向量;
步骤7.3:构建模型的反向传播;计算生成的隐变量向量的数据分布与正态分布N(0,I)的距离,同时计算生成数据与原始数据间的交叉熵损失;将两种损失值放在一起,通过Adma的随机梯度下降算法来实现在训练中的优化参数。
3.根据权利要求1或2所述的一种基于变分自编码器的人脸表情识别方法,其特征在于:所述的步骤4中预先训练好的卷积神经网络模型为在ImageNet数据集上预先训练的ResNet50卷积神经网络,在最后的平均池化层后面放置3个模块,分别用于输出翻转角,偏转角和俯仰角三个欧拉角的预测;将[-90°,+90°]区间分为181类,每一类对应一个角度值;ResNet50对图像中人脸姿势的翻转角,偏转角和俯仰角分别使用离散数和连续数来预测同一个角度,三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048;通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字,使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率。
4.根据权利要求1所述的一种基于变分自编码器的人脸表情识别方法,其特征在于:所述的步骤5中的组合损失函数具体为:
其中,α是权衡两个损失的权重;回归损失函数LMSE表示的是均方误差;LMSE的公式如下所示:
其中,yi是第i个样本的真实角度;是第i个样本的预测角度;
分类损失函数LS采用温度缩放的方式使得每个类的分数分布更广;LS的公式如下所示:
其中,Wj是最后一个全连接层的第j列;T是温度缩放参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010313704.X/1.html,转载请声明来源钻瓜专利网。