[发明专利]基于视频图像面部表情和语音的多模态儿童情绪识别融合模型在审

申请号：	202110781866.0	申请日：	2021-07-09
公开（公告）号：	CN113408649A	公开（公告）日：	2021-09-17
发明（设计）人：	陈震环;李为相;王传昱	申请（专利权）人：	南京工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/00;G10L25/63;G10L25/30;G10L25/24;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	211816 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视频图像面部表情语音多模态儿童情绪识别融合模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于视频图像面部表情和语音的多模态儿童情绪识别融合模型，其特征在于，包括以下步骤：

步骤(A)，将面部表情训练数据经过Gabor增强人脸纹理；

步骤(B)，将稠密连接卷积神经网络在纹理增强后的面部表情训练数据上进行训练，以得到图像情绪识别模型；

步骤(C)，将语音数据训练数据集的MFCC特征与GFCC进行特征融合；

步骤(D)，将融合特征输入至卷积神经网络(CNN)和门控循环单元(GRU)网络融合构成模型CGRU以及SVM中进行训练，并将CGRU与SVM构成集成学习，得到语音情绪识别模型。

步骤(E)，将所述图像情绪识别模型以及所述语音情绪识别模型进行决策融合，得到双模态儿童情绪识别模型。

2.根据权利要求1所述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型，其特征在于：步骤(A)，将面部表情训练数据经过Gabor增强人脸纹理，包括以下步骤：

(A1)，构建Gabor滤波器，所述Gabor滤波器具有2，3，4，5，6，7这六个不同波长取值，每个波长的滤波器设计0，π/4，2π/4，3π/4这4个方向；

(A2)，将面部表情训练数据和构建的Gabor滤波器进行卷积，得到纹理增强后的Gabor图像。

3.根据权利要求1所述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型，其特征在于：步骤(B)，将纹理增强后的面部表情训练数据输入至稠密连接卷积神经网络进行训练，以得到图像情绪识别模型，包括以下步骤：

(B1)，获取纹理增强后的训练样本，所述训练样本包括共5582张面部表情图像；

(B2)，使用稠密卷积神经网络对所述训练样本进行训练，以得到图像情绪识别模型，所述稠密卷积神经网络包含4个稠密块，每个稠密块包含的瓶颈层分别为6，12，24和16。

4.根据权利要求1所述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型，其特征在于：步骤(C)，将语音数据训练数据集的MFCC特征与GFCC进行特征融合，包括以下步骤：

(C1)，将语音情绪数据进行预处理，所述预处理包括归一化、预加重以及分帧加窗；

(C2)，提取所述语音情绪数据的MFCC特征和GFCC特征；

(C3)，将MFCC与GFCC进行融合。

5.根据权利要求1所述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型，其特征在于：步骤(D)，将融合特征输入至卷积神经网络(CNN)和门控循环单元(GRU)网络融合构成模型CGRU以及SVM中进行训练，并将CGRU与SVM构成集成学习，得到语音情绪识别模型，包括以下步骤：

(D1)，使用对频率域具有不错捕捉能力的卷积神经网络(CNN)和具有良好时序特征提取能力的门控循环单元(GRU)网络融合构成CGRU；

(D2)，获取的MFCC与GFCC的融合特征集；

(D3)，使用所述训练样本分别对CGRU以及SVM进行训练，分别得到CGRU模型以及SVM模型；

(D4)，将CGRU模型以及SVM模型进行集成学习，得到语音情绪识别模型。

6.根据权利要求1所述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型，其特征在于：步骤(E)，将所述图像情绪识别模型以及所述语音情绪识别模型进行决策融合，以得到双模态儿童情绪识别模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京工业大学，未经南京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110781866.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载