[发明专利]一种基于语音模糊聚类的情感识别方法有效

申请号：	201410299493.3	申请日：	2014-06-27
公开（公告）号：	CN104077598B	公开（公告）日：	2017-05-31
发明（设计）人：	周代英;谭发曾;贾继超;田兵兵;谭敏洁	申请（专利权）人：	电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	成都宏顺专利代理事务所(普通合伙)51227	代理人：	李玉兴
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及语音情感识别技术，具体的说是涉及一种基于语音模糊聚类的情感识别方法。本发明的方法包括对输入的语音信号进行预处理；提取处理后的语音信号的特征信息；将多类情感进行分组，并根据多类情感分组后的类型分别选取相应的特征信息；根据每一组情感类组合选取的特征信息分别进行分类处理；根据每一组情感类组合分类后的输出结果进行语音情感识别；本发明的有益效果为，通过不同情感选取不同的特征，用改进的自适应模糊K均值聚类方法比传统方式所有情感用同一种特征的FCM方法的识别效果要好很多，并且识别率更高，效果更好。本发明尤其适用于语音智能情感识别。
搜索关键词：	一种基于语音模糊情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于语音模糊聚类的情感识别方法，其特征在于，包括以下步骤：a.对输入的语音信号进行预处理；所述预处理包括预加重滤波和加窗分帧，将语音信号分为N帧，其中N为大于1的正整数；b.提取处理后的语音信号的特征信息；所述特征信息包括梅尔倒谱系数、基音、共振峰和短时能量；提取的特征信息中，所述基音包括基音方差、基音最小值；所述共振峰包括第一共振峰最大值、第一共振峰最小值、第一共振峰均值；第二共振峰最大值、第二共振峰均值；第三共振峰最大值、第三共振峰均值、第三共振峰方差；所述短时能量为短时能量最小值c.将语音信号与特征信息进行组合后输入多个分类器进行分类处理；所述分类器至少包含2种情感类别且每个分类器包含的情感类别不完全相同；所述语音信号与特征信息进行组合的具体方式为，根据将要输入的分类器所包含的情感类别，语音信号选取不同的特征信号构成特征信息向量X，其中X的行向量为每一帧语音信号选取的特征信息，其列向量为帧数N；具体的所述分类器为6个，每一个分类器包含2种共4类情感类别，分别为高兴、生气、悲伤和平静，采用两两分组法分组，共分为六组，第一组为高兴/生气、第二组为高兴/悲伤、第三组为高兴/平静、第四组为生气/悲伤、第五组为生气/平静、第六组为悲伤/平静；每一组情感类别对应一个分类器；每一组提取使该组中两类情感达到最优的特征信息数，然后将每一组的特征信息组成特征信息序列集X，其中特征信息向量X的行向量是从一帧语音信号中得到，列的大小是一段语音的帧数；其中，每一组特征信息具体为，第一组提取的特征信息为梅尔倒谱系数、第一共振峰最大值、第二共振峰最大值、第三共振峰最大值、第三共振峰均值；第二组提取的特征信息为梅尔倒谱系数、第一共振峰最小值、第三共振峰均值、基音最小值、基音方差；第三组提取的特征信息为梅尔倒谱系数、第一共振峰方差、第二共振峰均值、第三共振峰最大值、基音最小值；第四组提取的特征信息为梅尔倒谱系数、第一共振峰最大值、第三共振峰最大值、基音均值、短时能量最小值；第五组提取的特征信息为梅尔倒谱系数、第一共振峰最大值、第一共振峰方差、第二共振峰最大值、第三共振峰方差；第六组提取的特征信息为梅尔倒谱系数、第一共振峰方差、第二共振峰最大值、第三共振峰均值、短时能量最小值d.分别对每一个分类器进行分类处理，得出语音信号与该组分类器中情感类别的隶属度；具体的分类方法为采用自适应模糊K均值算法；所述采用自适应模糊K均值算法进行分类的具体方法为：将自适应模糊K均值算法的目标函数定义为：其中，为X为特征信息序列集，U为隶属度矩阵，V为聚类中心矩阵，A为c类的范数诱导大矩阵，N为特征信息个数，即样本数，c为聚类种类数，m为模糊加权指数，uij表示第j个样本对于第i情感类的隶属度函数值，vi为某一情感类的中心，即是一个聚类中心矢量，xk为某一种特征信息向量，Ai为某一类的局部范数诱导矩阵；为达到分类的目的，需要使目标函数J最小，通过循环迭代计算，当隶属矩阵稳定的时候就是目标函数最小的时候，设置隶属矩阵容错门限为ε，初始的隶属矩阵可以随机选取；所述循环迭代计算包括以下步骤：第一步：计算聚类中心第二步：计算聚类协方差矩阵第三步：计算马氏距离，其中，Ai＝[ρi det(Fi)]1/nFi‑1，||Ai||＝ρi,ρ>0,ρi为控制局部聚类参数；第四步：更新隶属度矩阵，l为循环的迭代次数；循环结束条件为||U(l)‑U(l‑1)||≤ε；分别将每一组的特征信息X按上述循环迭代计算进行处理得到每一组的稳定隶属矩阵Ue.根据每一个分类器输出的隶属度结果进行语音情感识别；具体的识别方法为将所有输出结果组成超矢量，对超矢量进行译码后输出判断的识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410299493.3/，转载请声明来源钻瓜专利网。

上一篇：类地重力场环境下室内场景单目视觉空间识别方法
下一篇：一种游客人数统计装置及其使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语音模糊聚类的情感识别方法有效

专利文献下载