[发明专利]面向语音与面部表情信号的情感可视化方法在审
申请号: | 201510932789.9 | 申请日: | 2015-12-14 |
公开(公告)号: | CN105551499A | 公开(公告)日: | 2016-05-04 |
发明(设计)人: | 韩志艳;王健;王东;尹作友;魏洪峰;郭兆正 | 申请(专利权)人: | 渤海大学 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L25/63 |
代理公司: | 锦州辽西专利事务所 21225 | 代理人: | 李辉 |
地址: | 121000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 语音 面部 表情 信号 情感 可视化 方法 | ||
1.一种面向语音与面部表情信号的情感可视化方法,其特征是包括以下步骤:
步骤1、情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑 定存储;
步骤2、情感信号预处理;
步骤2-1、语音信号预处理;
对获取的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤2-2、面部表情信号预处理;
对获取的面部表情信号,首先进行脸部定位,然后进行图像几何特性归一化处理和图 像光学特性归一化处理;
步骤3、情感特征参数提取;
步骤3-1、语音情感特征参数提取;
包括韵律特征和音质特征;
步骤3-2、面部表情特征参数提取;
对预处理后的面部表情信号,采用Gabor小波变换来提取面部表情特征参数,具体过程 如下:
1)将预处理后的面部表情图像网格化;
2)用Gabor小波和网格化后的图像进行卷积;
3)取卷积结果的模的均值和方差作为面部表情特征参数;
4)用主成分分析法PCA对上述面部表情特征参数进行降维处理,获得最终的面部表情 特征参数;
步骤4、神经网络设计;
所述的神经网络为三层BP神经网络,其中输入层有46个神经元,输出层有3个神经元;
步骤5、图像生成;
步骤5-1、图像主颜色编码;
通过给屏幕相应位置的RGB赋值,即通过设定图像红色饱和度R、绿色饱和度G和蓝色饱 和度B的值,来获得图像的主颜色信息;
步骤5-2、图案信息编码;
神经网络的输出即为相应的图案信息,神经网络的输出层有3个神经元,均采用二进制 编码,共有8个不同的码,其中利用前6个码,依次对应着中性、高兴、愤怒、惊奇、悲伤和恐惧 6种人类基本情感;
步骤5-3、图像合成;
图像合成时,把图像主颜色信息与图案信息融合在一幅图像中在显示屏上显示。
2.根据权利要求1所述的面向语音与面部表情信号的情感可视化方法,其特征是所述 步骤5-3中图像合成时,先获得图像主颜色信息,然后用图案信息置换相应位置的主颜色信 息,获得相应的情感可视化图像。
3.根据权利要求1所述的面向语音与面部表情信号的情感可视化方法,其特征是所述 步骤3-1语音情感特征参数提取时,提取16个语音情感特征,其中前9个语音情感特征为韵 律特征,后7个语音情感特征为音质特征;所述前9个语音情感特征分别为:语句发音持续时 间与相应的平静语句持续时间的比值、基因频率平均值、基因频率最大值、基因频率平均值 与相应平静语句的基因频率平均值的差值、基因频率最大值与相应平静语句的基因频率最 大值的差值、振幅平均能量、振幅能量的动态范围、振幅平均能量与相应平静语句的振幅平 均能量的差值、振幅能量动态范围与相应平静语句的振幅能量动态范围的差值。
4.根据权利要求3所述的面向语音与面部表情信号的情感可视化方法,其特征是所述 步骤3-1中后7个语音情感特征分别为:第一共振峰频率的平均值、第二共振峰频率的平均 值、第三共振峰频率的平均值、谐波噪声比的均值、谐波噪声比的最大值、谐波噪声比的最 小值、谐波噪声比的方差。
5.根据权利要求1所述的面向语音与面部表情信号的情感可视化方法,其特征是所述 步骤2-2中面部表情信号预处理时,其中利用肤色模型进行脸部定位;图像几何特性归一化 以两眼位置为依据,而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度 做拉伸,以改善图像的对比度,然后对图像像素灰度值进行归一化处理,使标准人脸图像的 像素灰度值为0,方差为1,如此部分消除光照对识别结果的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海大学,未经渤海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510932789.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种滑盖式光盘展示盒
- 下一篇:语音识别方法和设备