[发明专利]一种基于多级支持向量机分类的语音情感识别方法及系统在审
申请号: | 201810760350.6 | 申请日: | 2018-07-12 |
公开(公告)号: | CN108899046A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 尹伟杰;刘树安;宫俊 | 申请(专利权)人: | 东北大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L25/63 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音情感 支持向量机分类 策略构建 多级分类 方案解决 情感特征 输入语音 语音训练 识别率 有效地 样本 分类 | ||
1.一种基于多级支持向量机分类的语音情感识别方法,其特征在于,包括:
S1:提取语音训练样本集的情感特征;
S2:构造情感特征的多级分类算法模型;
S3:根据多级分类算法模型对所输入语音情感的类型进行识别。
2.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述语音训练样本集是由CASIA语音情感库中的情感构成。
3.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述步骤S1包括提取语音情感122维全局特征,其中所述122维全局特征包括:
特征1-7依次为短时能量的最大值、最小值、均值、方差、抖动、线性回归系数、线性回归系数的均方误差;
特征8依次为0-250HZ频段能量占总能量的百分比;
特征9-14依次为基因频率的最大值、最小值、均值、方差、一阶抖动、二阶抖动;
特征15-18依次为浊音帧差分基因的最大值、最小值、均值、方差;
特征19-70依次为0-12阶梅尔倒谱系数的最大值、最小值、均值、方差;
特征71-122依次为0-12阶梅尔倒谱系数一阶差分的最大值、最小值、均值、方差。
4.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述步骤S3包括:
将所述情感特征根据传统支持向量机方法对情感进行分类识别,计算出情感分类识别率,进而得到语音情感识别混淆矩阵;
构造第一级分类器,设定第一级分类器概率为P1,将情感混淆度超过第一级分类器概率的语音情感归为未获知的语音情感类,未超过所述分类器概率的作为已获知的语音情感类;
对第一级分类器中的所述未获知的语音情感类构造第二级分类器,设定第二级分类器概率为P2,将情感混淆度超过第二级分类器概率的语音情感归为未获知的语音情感类,未超过所述分类器概率的作为已获知的语音情感类;
以此类推,对第N-1级分类器中的所述未获知的语音情感类构造第N级分类器,设定第N级分类器概率为PN,将情感混淆度超过第N级分类器概率的语音情感归为未获知的语音情感类,未超过所述分类器概率的作为已获知的语音情感类;
直至构造的多级分类器将所有语言情感分组,构造多级分类算法模型结束。
5.根据权利要求4所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述第一级分类器概率、第二级分类器概率……第N级分类器概率是以10%为基础,然后依次递增2%的规律。
6.根据权利要求4所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述情感混淆度Iij定义为第i类情感错判为第j类情感的概率与第j类情感错判为第i类情感概率的平均值;数学表达式为:
其中,x为测试数据,t为测试数据x所对应的识别结果,Bj为测试数据错判为第j类情感的概率,Bi为测试数据错判为第i类情感的概率。
7.一种基于多级支持向量机分类的语音情感识别系统,其特征在于,包括:
特征提取单元,用于提取语音训练样本集的情感特征;
信号处理单元,用于构造情感特征的多级分类算法模型;
语音情感识别单元,用于根据多级分类算法模型对所输入语音情感的类型进行识别。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至6中任意一项所述的方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810760350.6/1.html,转载请声明来源钻瓜专利网。