[发明专利]一种基于多级支持向量机分类的语音情感识别方法及系统在审
申请号: | 201810760350.6 | 申请日: | 2018-07-12 |
公开(公告)号: | CN108899046A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 尹伟杰;刘树安;宫俊 | 申请(专利权)人: | 东北大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L25/63 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音情感 支持向量机分类 策略构建 多级分类 方案解决 情感特征 输入语音 语音训练 识别率 有效地 样本 分类 | ||
本发明公开了一种基于多级支持向量机分类的语音情感识别方法及系统。本发明方法,包括:提取所述语音情感在语音训练样本的情感特征;根据多级分类策略构建出语音情感识别模型;根据语音情感识别模型对所输入语音情感的类型进行判断;对语音情感进行了细致分类的方法,可以有效地将存在相似的特性某些情感也区分出来进行识别。进而本发明的技术方案解决了现有技术中的语音情感识别效果不理想,识别率低的问题。
技术领域
本发明涉及语音情感识别技术领域,具体而言,尤其涉及一种基于多级支持向量机分类的语音情感识别方法及系统。
背景技术
情感是人类一种重要的本能,它同理性思维和逻辑推理能力一样,在人们的日常生活、工作、交流、处理事务和决策中扮演着重要的角色。其中,对语音信号情感的识别研究已发展为语音信号处理的重要分支,成为人机和谐交互的重要组成部分。由于情感信息的社会性、文化性以及语音信号自身的复杂性,语音情感识别尚有许多问题有待解决,如情感建模、特征的分析和选择及识别方法的改进。HMM技术、高斯混合模型和神经网络等方法在语音情感识别领域得到广泛应用,不过它们都存在一些难以弥补的缺陷。HMM分类决策能力差,需要先验统计知识;高斯混合模型也是基于统计理论的,需要大量训练样本才能获得比较好的识别效果;神经网络则存在网络结构难以确定、局部最优、容易过学习等问题。当样本数据较少或有限时,以上传统方法的工程应用受到限制。支持向量机是在结构风险最小化原则基础上建立起来的机器学习方法,能有效地克服基于经验风险最小化原则的神经网络容易过学习、泛化能力差等不足之处,对于小样本数据分析具有无可比拟的学习能力和推广能力,已成功应用手写字符、人脸识别说话人识别和情感识别等领域。
然而,由于在情感分类中,某些情感之间表现出比较相似的特性,传统基于支持向量机的识别方法只是赋予未知情感一个单独的预测标签,进行语音情感识别时只是采用一级判决器就将所有情感进行分类,导致最终的识别效果不理想,识别率低。
发明内容
根据上述提出语音情感识别效果不理想,识别率低的技术问题,而提供一种基于多级支持向量机分类的方法。本发明主要通过先将不同情感进行粗分类,然后再对相似情感细分类,对同一情感进行多次判别,从而起到对语音情感类型进行准确的划分测试样本精确的情感类型。
本发明采用的技术手段如下:
一种基于多级支持向量机分类的语音情感识别方法,其特征在于:包括:
S1:提取语音训练样本集的情感特征;
S2:构造情感特征的多级分类算法模型;
S3:根据多级分类算法模型对所输入语音情感的类型进行识别。
进一步地,所述语音训练样本集是由CASIA语音情感库中的情感构成。
进一步地,所述提取所述语音情感在语音训练样本的情感特征包括提取语音情感122维全局特征,其中所述122维全局特征包括:
特征1-7依次为短时能量的最大值、最小值、均值、方差、抖动、线性回归系数、线性回归系数的均方误差;
特征8依次为0-250HZ频段能量占总能量的百分比;
特征9-14依次为基因频率的最大值、最小值、均值、方差、一阶抖动、二阶抖动;
特征15-18依次为浊音帧差分基因的最大值、最小值、均值、方差;
特征19-70依次为0-12阶梅尔倒谱系数的最大值、最小值、均值、方差;
特征71-122依次为0-12阶梅尔倒谱系数一阶差分的最大值、最小值、均值、方差。
进一步地,所述构造基于支持向量机的多级分类算法的模型包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810760350.6/2.html,转载请声明来源钻瓜专利网。