[发明专利]语音情感识别的优选方法在审
申请号: | 201710642840.1 | 申请日: | 2017-07-31 |
公开(公告)号: | CN107452404A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 刘明珠;李晓琴 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L15/18;G06K9/62 |
代理公司: | 哈尔滨东方专利事务所23118 | 代理人: | 陈晓光 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情感 识别 优选 方法 | ||
技术领域:
本发明涉及一种语音情感识别的优选方法。
背景技术:
目前语音是人与人之间沟通的桥梁,也是表达思想情感的工具,为了能使计算机可以像人一样与人类交流,语音情感识别逐渐成为了智能人机交互领域的研究热点,国外学者针对这方面做了大量研究,比如美国麻省理工学院MIT实验室研究的情感机器人,IBM公司的蓝眼计划以及NEC公司研制出的一种能感知人类情感的花等,这些研究都为语音情感识别的研究奠定了良好的基础。
国内在这项研究上起步比较晚,语音情感识别的正确率也比较低,但在语音情感识别方面的技术正在不断追赶世界技术前沿,目前急需一种更好的相关参数选取方法来解决语音情感的识别,以提高其识别率。
发明内容:
本发明的目的是提供一种语音情感识别的优选方法。
上述的目的通过以下的技术方案实现:
一种语音情感识别的优选方法,该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
所述的语音情感识别的优选方法,所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
所述的语音情感识别的优选方法,所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
所述的语音情感识别的优选方法,所述的SVM即:支持向量机,SVM是一种基于统计学习理论的机器学习算法,SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
有益效果:
1. 本发明采用的语音数据库为柏林情感语音库和中科院汉语情感语音库,其中两种数据库采样频率都为16KHz,且是16bit均匀量化,其中柏林数据集是由柏林技术大学录制,在高兴,生气,害怕,难过,中性、厌烦和厌恶7种感情状态下录制了535条情感语句,中科院汉语情感语音库由中科院自动化所提供,其成员分别在高兴,生气,害怕,难过,中性和惊讶6种情感下录制得到1200句语音情感,通过Fisher准则和最大熵原理结合的方法对韵律特征和音质特征相结合的方式进行语音信号的特征提取,即基音频率、振幅能量和共振峰,使其提取后的SVM核参数优化效果更好。
本发明由于采用Fisher准则保证了期望样本在特征空间中最大的类别间隔,而最大熵原理保障了类内均匀分布程度,使得SVM取得了最优核参数,通过分析基音频率特征中的生气和高兴的基因频率分布在150Hz到450Hz之间,而平静和害怕大多分布于100Hz至350Hz之间,明显小于生气和高兴两种情感的基频大小,振幅能量特征中的生气和高兴的平均能量值高于悲伤,共振峰特征中的高兴和生气的第一、第二和第三共振峰都比悲伤的高,且都处于相对稳定状态,其结果表明,该方法有利于提高语音情感的识别,且达到了90.1%的平均识别率,高于国际同类型其它方法3.5%。
附图说明:
附图1是本发明基音频率-高兴的特征图。
附图2是本发明基音频率-生气的特征图。
附图3是本发明基音频率-平静的特征图。
附图4是本发明基音频率-害怕的特征图。
附图5是本发明振幅能量-高兴的特征图。
附图6是本发明振幅能量-生气的特征图。
附图7是本发明振幅能量-悲伤的特征图。
附图8是本发明振幅能量-平静的特征图。
附图9是本发明共振峰-高兴的特征图。
附图10是本发明共振峰-生气的特征图。
附图11是本发明共振峰-悲伤的特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710642840.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种说话人标记方法
- 下一篇:一种根据语音内容进行数据评价的方法及装置