[发明专利]一种用于语音情感识别的语音情感特征提取方法有效
申请号: | 201010272971.3 | 申请日: | 2010-09-03 |
公开(公告)号: | CN101930733A | 公开(公告)日: | 2010-12-29 |
发明(设计)人: | 颜永红;周瑜;孙艳庆;李军锋 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉;高宇 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 语音 情感 识别 特征 提取 方法 | ||
技术领域
本发明涉及语音情感识别技术领域,具体地说,本发明涉及一种应用于语音情感识别系统的特征提取方法。
背景技术
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互技术已成为当前计算机科学领域一个十分活跃的研究课题。语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心理学等学科的发展,有着重要的现实意义,并最终产生很大经济效益和社会效益。语音情感识别,对于语音识别整体技术的提高也是很有好处的。一般说来,语音中包含了说话内容、说话人、情感、语气、语义等丰富信息。其中对于说话内容的识别,也就是常规的语音识别,以及说话人识别等,业界进行了长期的持续的研究,也取得了不错的成果。近来,以NIST(美国标准技术研究所)主导的丰富标注评测项目,引起来越来越多的人的关注。语音识别不再是单独对内容的识别,而是更加注重对含义、情感等信息的提取。另一方面,情感信息的提取,还能为语音识别提供信息和补偿作用,推动语音识别稳健性的提升。
关于语音情感识别的研究,可以采用的分类器都已近很成熟了,如混合高斯模型分类器(参见黄锋,尹俊勋,“一种基于GMM模型的语音情感识别方法”,《微计算机信息》,2009 25(10))。而如何从语音信号中提取出更加适合于语音情感识别的特征成为了提高识别率的最关键问题。之前的很多研究,大多数采用了基于韵律的特征,不过单独使用韵律特征的系统,其识别率是不理想的,原因之一就是很多情感的韵律特征有相同的特性,导致分类器不能很好的将它们分开。而传统的应用于说话人识别和语音识别里面的基于频谱的特征MFCC(美尔频率倒谱系数),也经常被拿来用于语音情感识别中,其性能相比单独使用韵律特征要好些。然而,基于频谱的特征MFCC,是从人听觉感知的角度,更多的强调语音、以及说话人的信息特性。而在语音情感识别中,应该强调其情感信息,而消减语音和说话人的信息。这一点和语音识别和说话人识别是不同的。对于语音识别来说,特征应该强调语音的信息,而说话人的特征应该强调说话人的信息。这个差异表明:目前常用的基于均匀美尔域的特征MFCC不能满足情感识别的要求,迫切需要一种能够更加适合于语音情感识别的特征提取方法。
发明内容
本发明要解决的技术问题是提供一种对语音情感识别更有效的特征提取方法,通过该特征提取方法,一方面可以提高各语音情感之间的区分性,对语音情感的分类提供更有效的特征,另一方面可以降低语音情感内部的差异性,减少语音情感识别的错误率。
为达到上述发明目的,本发明提供了一种用于语音情感识别的语音情感特征提取方法,包括下列步骤:
1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀的三角型带通滤波器得到均匀的通带能量;
2)以步骤1)所得到的通带能量为特征,计算各频点处的语音情感信息的F-Ratio值,得出语音情感信息的F-Ratio值在各个频带上的分布图;
3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系;
4)用非均匀美尔子带滤波器得到所述待识别语音信号各非均匀美尔子带的能量输出,进而得出所述待识别语音信号的语音情感特征。
本发明还提供了相应的语音情感识别方法,包括:
按上述1)至4)步骤得出待识别语音信号的语音情感特征;
5)将待识别语音信号的语音情感特征输入分类器(如混合高斯模型分类器),得出语音情感识别结果。
本发明具有下述技术效果:
本发明的语音情感识别特征提取方法,从模式分类的角度,评估了语音情感信息在频率域上的分布情感,从理论上更有利于语音情感的分类。利用该信息,采用非均匀子带滤波器反映这种关系,从而更好的挖掘对语音情感有益的信息。在所作的统计实验中,使用本发明特征计算方法的语音情感识别系统的结果,提取的特征加大了各类情感之间的鉴别性,相比于传统的MFCC特征,提高了情感识别的性能。
附图说明
图1是语音情感信息在频率域的分布图;
图2是本发明的特征提取流程图;
图3是非均匀子带滤波器的计算框图;
图4是在情感语料库上识别率改进对比图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010272971.3/2.html,转载请声明来源钻瓜专利网。