[发明专利]多模态连续情感识别方法、服务推理方法及系统有效
申请号: | 202110361649.6 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113033450B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 路飞;张龙 | 申请(专利权)人: | 山东大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06N5/04;G06N7/00;G10L25/24;G10L25/30;G10L25/63 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 连续 情感 识别 方法 服务 推理 系统 | ||
1.一种基于表情和语音的多模态连续情感识别方法,其特征在于,包括以下步骤:
获取包含用户面部表情和语音的视频数据;
对于视频图像序列,提取人脸图像,对人脸图像进行特征提取,得到表情情感特征;采用Gabor小波变换对人脸图像进行特征提取,得到表情情感特征;
提取人脸图像包括:
采用预训练的神经网络模型对视频图像序列进行人脸识别,同时识别异常视频帧,将异常帧丢弃,其中,所述神经网络模型级联三个不同深度的卷积神经网络;
根据表情情感特征,基于预训练的深度学习模型进行连续情感识别;
对于语音数据,利用梅尔频率倒谱系数获取语音情感特征;语音数据在时域上是动态的,增加两帧间信息的维度,通过对数据的静态特征进行动态一阶差分和二阶差分来获得语音的动态特征,通过组合一阶差分动态特征、二阶动态特征和静态特征得到梅尔频率倒谱系数情感特征;根据语音情感特征,基于预训练的迁移学习网络进行连续情感识别;迁移学习神经网络由7个卷积层、一个池化层、一个Dropout层以及1个全连接层组成,激活函数选择Relu和Tanh函数;Relu用于卷积层,Tanh函数应用于全连接层;
将表情情感识别结果和语音情感识别结果相融合,得到最终识别结果;
对表情和语音情感识别结果利用多元线性回归进行融合,实现多模态融合的情感识别;多元线性回归的方程如下所示:
Y=β0+β1x1+β2x2+β3x3+…+βkxk+ε
式中β0为回归常数;β1,β2,β3,…,βk代表回归系数;Y表示因变量;x1,x2,x3,…,xk代表自变量;ε表示随机误差。
2.如权利要求1所述的一种基于表情和语音的多模态连续情感识别方法,其特征在于,对于语音数据还进行预处理:
利用一阶非递归型的高通滤波器对语音数据进行处理;
对语音数据进行分帧处理,并通过添加汉明窗实现相邻两帧之间的平滑过渡。
3.如权利要求1所述的一种基于表情和语音的多模态连续情感识别方法,其特征在于,所述迁移学习网络从输入端到输出端依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、dropout层和全连接层,其中,全连接层采用Tanh激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110361649.6/1.html,转载请声明来源钻瓜专利网。