[发明专利]基于深度SVM网络模型的语音情感识别方法在审

申请号：	201810945062.8	申请日：	2018-08-16
公开（公告）号：	CN109065073A	公开（公告）日：	2018-12-21
发明（设计）人：	孙颖;张雪英;王少玄;宋春晓;吕慧芬;李鸿燕;黄丽霞	申请（专利权）人：	太原理工大学
主分类号：	G10L25/63	分类号：	G10L25/63;G10L17/02;G06K9/62
代理公司：	太原晋科知识产权代理事务所(特殊普通合伙) 14110	代理人：	任林芳
地址：	030024 ***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络模型语音情感语音信号情感特征提取非线性特征预处理操作先验表征能力端点检测情感状态网络参数韵律特征核函数可调整有效地预加重单层分帧构建加窗刻画
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度SVM网络模型的语音情感识别方法，其特征在于：包括以下的步骤，

S100～语音信号的预处理操作：包括端点检测、预加重、分帧加窗；

S200～语音信号的情感特征提取：包括韵律特征、MFCC特征和非线性特征；

S300～构建深度SVM网络模型对语音信号进行训练与识别。

2.根据权利要求1所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S100包括以下步骤，

S101～端点检测：采用能量和过零率两级判决法对语音信号进行起始点与终止点的判断；

S102～预加重：通过传递函数H(z)＝1-αz^-1的一节FIR高通数字滤波器来实现预加重，其中α为预加重系数，0.9＜α＜1.0；

S103～加窗分帧：采用hamming窗进行分帧处理，窗函数如下：

3.根据权利要求2所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S200中，

S201～韵律特征提取：包括语速、平均过零率、能量、基频和共振峰；

S202～MFCC特征提取：引入Mel频率来模拟听觉特性，将普通频率转化到Mel频率：

S203～非线性特征提取：根据语音发声过程中的混沌特性，应用非线性动力学特征分析情感语音信号，提取该模型下情感语音信号的非线性属性特征：最小延迟时间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数；基于语音信号发生过程中存在混沌特性，将一维情感语音信号进行相空间重构，提取重构空间下基于轨迹描述轮廓的五种非线性几何特征。

4.根据权利要求3所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S202包括以下步骤，

(1)先对输入的语音进行处理；

(2)通过FFT得到每帧语音信号对应的频谱；

(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱；Mel滤波器是一组三角滤波器组，对应的中心频率均为f(m)，Mel滤波器的中心频率与频率响应分别为：

其中f_h、f_l为滤波器应用范围中的最高频率和最低频率，N为进行快速傅里叶变换时的点数，F_s是采样频率，M是梅尔滤波器组中滤波器个数，B^-1＝700(e^b/1125-1)是f_mel的逆函数；

(4)对Mel频谱进行倒谱分析，分别包括取对数和DCT逆变换，取逆变换的第2-13的系数作为MFCC参数，这个MFCC就是这帧语音的特征。

5.根据权利要求4所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S203中，五种非线性几何特征分别为，

①第一轮廓：吸引子到圆心的距离表示为：

其中，二维空间下吸引子三维空间下吸引子

②第二轮廓：吸引子之间的连续轨迹长度表示为

③第三轮廓：吸引子之间的连续轨迹夹角表示为

④第四轮廓：吸引子到标识线的距离表示为