[发明专利]一种基于支持向量机的语音情感识别方法无效

专利信息
申请号: 200610097301.6 申请日: 2006-10-30
公开(公告)号: CN1975856A 公开(公告)日: 2007-06-06
发明(设计)人: 赵力;王治平;赵艳;郑文明 申请(专利权)人: 邹采荣
主分类号: G10L15/00 分类号: G10L15/00;G10L15/02;G10L15/06;G10L15/08;G10L15/28
代理公司: 南京中新达专利代理有限公司 代理人: 孙鸥
地址: 210096江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种语音情感识别系统及方法。本发明采取特征提取分析模块、SVM训练模块和SVM识别模块;训练过程包括特征提取分析、SVM训练;识别过程包括特征提取分析、SVM识别。特征提取分析有全局结构特征参数选择及性别规整、时序结构特征参数选择、性别规整及元音数目规整;支持向量机(SVM)有支持向量机训练、对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别。解决了矢量分割型马氏距离判法、主元分析法、神经网络法、隐马尔可夫法等的各自缺陷。本发明加强了特征参数的有效性,加入性别规整,用最少支持向量,在错分样本和算法复杂度之间获得最好的语音识别,在单个SVM及多个SVM结合的多模式具有连续输出函数,降低误识率。
搜索关键词: 一种 基于 支持 向量 语音 情感 识别 方法
【主权项】:
1.一种基于支持向量机的语音情感识别方法,其步骤为:建立特征提取分析模块、SVM训练模块、SVM识别模块;特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取;首先对原始语音信号预加重、分帧,然后分别进行全局结构特征提取、时序结构特征提取;(1)全局结构特征参数提取:(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;(1-2)分帧,加窗;(1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基音频率轨迹、振幅、共振峰频率轨迹;(1-4)提取上述特征参数的衍生参数:平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;(2)时序结构特征参数提取:(2-1)将原始语音信号分帧后,经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波,每帧信号以一个能量系数向量表示;(2-2)计算频带能量累积量,用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值,求得所有差值的绝对值的加权和,得到频带能量累积量; Sbec ( t ) = Σ i = 1 24 α i | E i ( t ) - E ( t ) | (式1)t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美尔标度滤波器组的平均能量,αi为第i个滤波器的权重系数;(2-3)根据频带能量累积量峰值来判定元音位置或元音区间,并用简化能量累积量的分布来确定元音的位置, Rec = Σ i = 1 24 α i | E i ( t ) - E ( t ) | = Rec LF + Rec HF (式2)t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数,RecLF为低频部分(300~1000Hz)对应的Rec值、RecHF为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置,Rec值作为判别元音的标准必须满足两个条件:当前语音段必须长于15ms,低频和高频的能量分布必须均衡,即满足下式 Rec LF Rec HF 0.5 Δt≥15ms (式3)Δt为当前帧的长度;(2-4)采用短时分析方法,按照性别分别计算情感语句各元音区间的基音轨迹、3个共振峰轨迹、振幅能量轨迹;(2-5)计算情感语句各元音区间的最高基音频率、该基音频率所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率;(2-6)采用均值补齐方法规整元音,即选取情感语句中元音个数最多的句子为基准,对于元音个数少的语句在尾部用全句平均值代替、补齐参数向量;将提取的全局结构特征参数、时序结构特征参数规整到相同的空间,得到支持向量机的输入矢量;(3)支持向量机的训练单个支持向量机是一个二分模式的分类器,对SVM的训练是在训练样本中寻找支持向量xi(i=1,2,…,n)、支持向量权值系数ai和偏移系数b;SVM的训练步骤:(3-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五种情感语句作为训练样本;(3-2)选择其中一种情感作为识别目标,对于第i条情感语句,抽取其特征参数构成一个特征参数向量,采用符号函数作为判决函数,如果这条语句属于该类情感,则令SVM输出参数yi=1,否则yi=-1;(3-3)利用训练样本的特征参数向量和SVM输出参数作为训练集,核函数是高斯(径向基)函数,采用已有的分解算法对该情感的支持向量机进行训练,得到该训练集的支持向量xi(i=1,2,…,N)、支持向量权值系数ai和偏移系数b;(3-4)高兴、生气、悲伤、恐惧、惊讶五种情感分别训练五个支持向量机;(4)情感识别(4-1)单个情感识别提取待识别语句的特征矢量输入到步骤(3)已训练好的支持向量机中,经输出判别函数(符号函数)对该语句进行判别,如果yj=1则该语句属于该类情感,则该语句为该类情感,否则不属于该类情感;(4-2)多情感识别采用One-Against-All支持向量机对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别,与步骤(3)中建立的五个支持向量机对应,对每一个支持向量机,采用具有连续输出的函数作为软判决函数,将具有最大输出值的类别作为最终的输出, y ik = 1 Σ x sv α ik y ik ( K ( x ik , x ) ) + b > 1 Σ x sv α ik y ik ( K ( x ik , x ) ) + b - 1 Σ x sv α ik y ik ( K ( x ik , x ) ) + b 1 - 1 Σ x sv α ik y ik ( K ( x ik , x ) ) + b < - 1 (式4)j为测试语句的标号,k为不同的情感,K(xik,x)为待识别语句x与第k种情感的第i个支持向量xik的核函数,在计算出每个样本相对于不同情感的判别结果后,识别情感为使(式4)取得最大值的k值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邹采荣,未经邹采荣许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200610097301.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top