[发明专利]基于深度SVM网络模型的语音情感识别方法在审

申请号：	201810945062.8	申请日：	2018-08-16
公开（公告）号：	CN109065073A	公开（公告）日：	2018-12-21
发明（设计）人：	孙颖;张雪英;王少玄;宋春晓;吕慧芬;李鸿燕;黄丽霞	申请（专利权）人：	太原理工大学
主分类号：	G10L25/63	分类号：	G10L25/63;G10L17/02;G06K9/62
代理公司：	太原晋科知识产权代理事务所(特殊普通合伙) 14110	代理人：	任林芳
地址：	030024 ***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络模型语音情感语音信号情感特征提取非线性特征预处理操作先验表征能力端点检测情感状态网络参数韵律特征核函数可调整有效地预加重单层分帧构建加窗刻画
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音情感识别技术领域，具体是一种基于深度SVM网络模型的语音情感识别方法。包括以下的步骤，S100～语音信号的预处理操作：包括端点检测、预加重、分帧加窗；S200～语音信号的情感特征提取：包括韵律特征、MFCC特征和非线性特征；S300～构建深度SVM网络模型对语音信号进行训练与识别。本发明不仅弥补了现有特征在刻画情感状态上的不足，还有效地解决了SVM模型的两个问题：一是模型的性能取决于先验选择的核函数；二是具有单层可调整的网络参数，器模型的表征能力有限。

技术领域

本发明涉及语音情感识别技术领域，具体是一种基于深度SVM网络模型的语音情感识别方法。

背景技术

语言是人类进行沟通交流最有效的工具。语言中不仅包含了文字信息，而且还包含了大量反映说话人情感变化的副语言信息。作为语音信号处理和情感计算领域的重要分支，语音识别技术在车载导航、视频监控、网络视讯等人机交互领域中有着非常广泛的应用。

语音识别技术是指能够让机器听懂人所说的话，即在特定和非特定环境下让计算机尽可能以接近人类的方式对语音信号的特征进行正确的关联和映射，从而准确识别出语音的内容。因此，提取与表征语音信号相关性最紧密的特征、并能准确进行正确识别成为了语音识别技术的关键。目前，针对语音情感识别的研究，学者们进行了多方面的研究，并取得了相当多有价值的研究成果。在情感特征提取方面，用于语音情感识别的特征大致可分为韵律学特征、音质特征、基于谱的相关特征、非线性特征、融合特征等。以上特征均利用了语音信号分段线性的特点，因此，仅利用语音信号分段线性的特点提取时域、频域属性语音特征会造成语音信号中某些非线性特征的丢失，从使得语音信号的信息不完整。在情感识别模型方面，有学者提出一些抗噪性能好、识别效果好的识别模型，比如：隐马尔科夫模型(HMM)、支持向量机模型(SVM)、高斯混合模型(GMM)等。但此类模型局需要语音信号的先验统计知识，分类决策能力相对较弱。因此要进一步提高语音情感识别率，就要提出能够表征情感信息的新特征，并对SVM模型进行改进。

发明内容

本发明所要解决的技术问题是：一方面可以提取情感语音信号的语谱图特征，获得表征情感信息的完整特征集；另一方面可以解决SVM取决于先验选择的核函数的局限性，提高语音情感的识别率。提供一种基于深度SVM网络模型的语音情感识别方法。

本发明采取以下技术方案：一种基于深度SVM网络模型的语音情感识别方法，具体包括以下的步骤，

S100～语音信号的预处理操作：包括端点检测、预加重、分帧加窗；

S200～语音信号的情感特征提取：包括韵律特征、MFCC特征和非线性特征；

S300～构建深度SVM网络模型对语音信号进行训练与识别。

所述的S100包括以下步骤，

S101～端点检测：采用能量和过零率两级判决法对语音信号进行起始点与终止点的判断；

S102～预加重：通过传递函数H(z)＝1-αz^-1的一节FIR高通数字滤波器来实现预加重，其中α为预加重系数，0.9＜α＜1.0；

S103～加窗分帧：采用hamming窗进行分帧处理，窗函数如下：

所述的S200中，

S201～韵律特征提取：包括语速、平均过零率、能量、基频和共振峰；