[发明专利]基于深度SVM网络模型的语音情感识别方法在审
申请号: | 201810945062.8 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109065073A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 孙颖;张雪英;王少玄;宋春晓;吕慧芬;李鸿燕;黄丽霞 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L17/02;G06K9/62 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络模型 语音情感 语音信号 情感特征提取 非线性特征 预处理操作 先验 表征能力 端点检测 情感状态 网络参数 韵律特征 核函数 可调整 有效地 预加重 单层 分帧 构建 加窗 刻画 | ||
本发明涉及语音情感识别技术领域,具体是一种基于深度SVM网络模型的语音情感识别方法。包括以下的步骤,S100~语音信号的预处理操作:包括端点检测、预加重、分帧加窗;S200~语音信号的情感特征提取:包括韵律特征、MFCC特征和非线性特征;S300~构建深度SVM网络模型对语音信号进行训练与识别。本发明不仅弥补了现有特征在刻画情感状态上的不足,还有效地解决了SVM模型的两个问题:一是模型的性能取决于先验选择的核函数;二是具有单层可调整的网络参数,器模型的表征能力有限。
技术领域
本发明涉及语音情感识别技术领域,具体是一种基于深度SVM网络模型的 语音情感识别方法。
背景技术
语言是人类进行沟通交流最有效的工具。语言中不仅包含了文字信息,而且 还包含了大量反映说话人情感变化的副语言信息。作为语音信号处理和情感计算 领域的重要分支,语音识别技术在车载导航、视频监控、网络视讯等人机交互领 域中有着非常广泛的应用。
语音识别技术是指能够让机器听懂人所说的话,即在特定和非特定环境下让 计算机尽可能以接近人类的方式对语音信号的特征进行正确的关联和映射,从而 准确识别出语音的内容。因此,提取与表征语音信号相关性最紧密的特征、并能 准确进行正确识别成为了语音识别技术的关键。目前,针对语音情感识别的研究, 学者们进行了多方面的研究,并取得了相当多有价值的研究成果。在情感特征提 取方面,用于语音情感识别的特征大致可分为韵律学特征、音质特征、基于谱的 相关特征、非线性特征、融合特征等。以上特征均利用了语音信号分段线性的特 点,因此,仅利用语音信号分段线性的特点提取时域、频域属性语音特征会造成 语音信号中某些非线性特征的丢失,从使得语音信号的信息不完整。在情感识别 模型方面,有学者提出一些抗噪性能好、识别效果好的识别模型,比如:隐马尔 科夫模型(HMM)、支持向量机模型(SVM)、高斯混合模型(GMM)等。但 此类模型局需要语音信号的先验统计知识,分类决策能力相对较弱。因此要进一 步提高语音情感识别率,就要提出能够表征情感信息的新特征,并对SVM模型 进行改进。
发明内容
本发明所要解决的技术问题是:一方面可以提取情感语音信号的语谱图特征, 获得表征情感信息的完整特征集;另一方面可以解决SVM取决于先验选择的核 函数的局限性,提高语音情感的识别率。提供一种基于深度SVM网络模型的语 音情感识别方法。
本发明采取以下技术方案:一种基于深度SVM网络模型的语音情感识别方 法,具体包括以下的步骤,
S100~语音信号的预处理操作:包括端点检测、预加重、分帧加窗;
S200~语音信号的情感特征提取:包括韵律特征、MFCC特征和非线性特征;
S300~构建深度SVM网络模型对语音信号进行训练与识别。
所述的S100包括以下步骤,
S101~端点检测:采用能量和过零率两级判决法对语音信号进行起始点与终 止点的判断;
S102~预加重:通过传递函数H(z)=1-αz-1的一节FIR高通数字滤波器来 实现预加重,其中α为预加重系数,0.9<α<1.0;
S103~加窗分帧:采用hamming窗进行分帧处理,窗函数如下:
所述的S200中,
S201~韵律特征提取:包括语速、平均过零率、能量、基频和共振峰;
韵律特征主要描述了情感语音信号中的非言语信息,包括语音高低与长短、 以及快慢和轻重等方面的变化,也包含了语音流畅表达的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810945062.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度神经网络的语音质量客观评价方法
- 下一篇:一种婴儿语音声音翻译器