[发明专利]基于深度SVM网络模型的语音情感识别方法在审
申请号: | 201810945062.8 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109065073A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 孙颖;张雪英;王少玄;宋春晓;吕慧芬;李鸿燕;黄丽霞 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L17/02;G06K9/62 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络模型 语音情感 语音信号 情感特征提取 非线性特征 预处理操作 先验 表征能力 端点检测 情感状态 网络参数 韵律特征 核函数 可调整 有效地 预加重 单层 分帧 构建 加窗 刻画 | ||
1.一种基于深度SVM网络模型的语音情感识别方法,其特征在于:包括以下的步骤,
S100~语音信号的预处理操作:包括端点检测、预加重、分帧加窗;
S200~语音信号的情感特征提取:包括韵律特征、MFCC特征和非线性特征;
S300~构建深度SVM网络模型对语音信号进行训练与识别。
2.根据权利要求1所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S100包括以下步骤,
S101~端点检测:采用能量和过零率两级判决法对语音信号进行起始点与终止点的判断;
S102~预加重:通过传递函数H(z)=1-αz-1的一节FIR高通数字滤波器来实现预加重,其中α为预加重系数,0.9<α<1.0;
S103~加窗分帧:采用hamming窗进行分帧处理,窗函数如下:
3.根据权利要求2所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S200中,
S201~韵律特征提取:包括语速、平均过零率、能量、基频和共振峰;
S202~MFCC特征提取:引入Mel频率来模拟听觉特性,将普通频率转化到Mel频率:
S203~非线性特征提取:根据语音发声过程中的混沌特性,应用非线性动力学特征分析情感语音信号,提取该模型下情感语音信号的非线性属性特征:最小延迟时间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数;基于语音信号发生过程中存在混沌特性,将一维情感语音信号进行相空间重构,提取重构空间下基于轨迹描述轮廓的五种非线性几何特征。
4.根据权利要求3所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S202包括以下步骤,
(1)先对输入的语音进行处理;
(2)通过FFT得到每帧语音信号对应的频谱;
(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱;Mel滤波器是一组三角滤波器组,对应的中心频率均为f(m),Mel滤波器的中心频率与频率响应分别为:
其中fh、fl为滤波器应用范围中的最高频率和最低频率,N为进行快速傅里叶变换时的点数,Fs是采样频率,M是梅尔滤波器组中滤波器个数,B-1=700(eb/1125-1)是fmel的逆函数;
(4)对Mel频谱进行倒谱分析,分别包括取对数和DCT逆变换,取逆变换的第2-13的系数作为MFCC参数,这个MFCC就是这帧语音的特征。
5.根据权利要求4所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S203中,五种非线性几何特征分别为,
①第一轮廓:吸引子到圆心的距离表示为:
其中,二维空间下吸引子三维空间下吸引子
②第二轮廓:吸引子之间的连续轨迹长度表示为
③第三轮廓:吸引子之间的连续轨迹夹角表示为
④第四轮廓:吸引子到标识线的距离表示为
考虑到时间延迟τ=1,当原始波形x(t)滞后的两个样本x(t-1)和x(t-2)存在较小的差异,即存在恒等式:
x(t)=x(t-1)=x(t-2)
当连续三个吸引子存在较大差异,上式不成立,由于混沌系统的策动因素是相互影响的,因而在时间先后产生的数据点也是相关的,将上式称为标识线,通过分析吸引子到标识线的距离来刻画吸引子之间的差异性;
⑤第五轮廓:吸引子连续轨迹总长度表示为S:
其中,上述所定义与S五种物理量即是所提取的非线性几何特征。
6.根据权利要求5所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S300包括以下步骤,
S301~训练数据集:
S302~模型:设模型输入为x,输出为y,其中的关系为:
其中κ(·)为核函数,根据SVM隐层每个节点的输出hk(k=1,2,…,K),且αk(n)和bk为第k个待学习的参数与偏置;hk并不是一维的;接下来隐层特征h作为下一个非线性单元的输入,即有:
注意h(n)为输入x(n)的隐层特征,h为输入x的隐层特征,其中待学习的参数为β(n)和c;
S303~优化目标函数:优化目标函数为:
其中参数为:
符号R(θ)为正则项;
S304~求解:采用梯度下降的方式实现参数的优化学习,其核心便是误差传播项的偏导数求解,然后采用链式法则,进行逐层参数的更新,根据上述获得的隐层特征为隐含层节点特征,基于SVM网络模型,则有:
根据上述获得的隐层特征为隐含层节点特征,基于SVM网络模型,则有:
进而有:
根据核函数定义,可得到:
即输出为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810945062.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度神经网络的语音质量客观评价方法
- 下一篇:一种婴儿语音声音翻译器