[发明专利]一种基于改进模糊矢量量化的语音情感识别方法无效
申请号: | 200810122806.2 | 申请日: | 2008-07-01 |
公开(公告)号: | CN101620853A | 公开(公告)日: | 2010-01-06 |
发明(设计)人: | 邹采荣;赵力;赵艳;魏昕 | 申请(专利权)人: | 邹采荣;赵力 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210096江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于改进模糊矢量量化的语音情感识别方法。本发明将模糊隶属度函数总和由1扩为N,一定程度上降低了样本野点对训练迭代过程的影响,在码本训练过程中采用基于相似性阀值和最小距离原则的聚类方法,一定程度上避免了聚类中心的对初值敏感、易陷入局部极小值的问题,从实验结果看,本发明方法可以有效改善现有模糊矢量量化方法情感识别率。 | ||
搜索关键词: | 一种 基于 改进 模糊 矢量 量化 语音 情感 识别 方法 | ||
【主权项】:
1.一种基于改进模糊矢量量化的语音情感识别方法,其步骤为:建立特征提取分析模块、特征降维模块、改进模糊矢量量化模块的训练、情感识别模块;特征提取分析模块包括两类参数的提取和性别规整:韵律参数和音质参数;首先对原始语音信号预加重、分帧,然后分别进行特征提取;(1)韵律参数提取(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;(1-2)分帧,加窗;(1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基频轨迹、短时能量轨迹、浊音段清音段时间比;(1-4)提取部分韵律特征参数的衍生参数:短时能量最大值、最小值、均值和方差,短时能量抖动最大值、最小值、均值和方差,基频最大值、最小值、均值和方差,基频抖动的最大值、最小值、均值和方差;其中短时能量抖动的计算如下:E i 1 = | E i 0 - E i - 1 0 | ]]> i=2,3,…,N (式1)其中Ei0是第i帧短时能量,N为帧数;基频抖动的计算同(式1);(1-5)性别规整,按照样本所属的不同性别,归入不同的集合si;再次分别计算各自的均值μi和方差σi,这里用i表示不同的集合序号,利用下式将参数规整到相同的空间;s i ′ = s i - u i σ i ]]> (式2)(2)音质特征参数提取(2-1)提取声门波参数的最大值、最小值、均值和方差,包括:声门开启时间与整个声门周期比(OQ,open quotient)、声门开启过程时间与闭合过程时间比(SQ,speed quotient)、声门闭合时间与整个声门周期比(CQ,ClosedQuotient)、声门闭合过程时间与整个声门周期比(ClQ,Closing Quotient)、声门波歪斜度;(2-2)提取谐波噪声比最大值、最小值、均值、方差;(2-3)提取前三个共振峰最大值、最小值、均值、方差和带宽;(2-4)提取前三个共振峰抖动的最大值、最小值、均值、方差;共振峰抖动计算同(式1);(2-5)性别规整,同(1-5);(3)特征降维(3-1)将(1)(2)中全部特征提取和规整完毕后,组成特征矢量;(3-2)采用主分量分析神经网络(PCANN)实现降维,得到样本特征矢量序列X={X1,X2...,XN,};(4)改进模糊矢量量化(4-1)对某种情感所有训练样本,计算任意两个样本间的欧氏距离,将距离最近的两个样本定为一类,选定距离阀值L,将与该两样本之一的距离在L之内的所有样本判为此类;(4-2)将已有类别归属的样本及与这些样本有关的距离适当处理,不再使用;(4-3)在剩下的样本中找到距离最近的一对样本,若它们之间的距离大于L,则将这两个样本分别定为一类,且各类中只有一个样本;若它们之间的距离小于L,则选定距离阀值αL(0<α≤1),将与该样本之一的距离在αL之内的所有样本判属此类;(4-4)重复步骤(4-2)、(4-3),直到所有样本都被分类,若最后只剩一个样本,则将该样本单独定为一类;(4-5)调整L及αL,直到所有样本被聚成J类;(4-6)将隶属度函数uk(Xi)的归一化条件扩大为Σ j = 1 J Σ i = 1 N u j ( X i ) = N , ]]> 按(式3)计算uk(Xi),按(式4)计算得到各类的类中心Yj(i=1,2,…J);u k ( X i ) = Σ j = 1 J Σ i = 1 N ( d ( X i , Y k ) 2 / ( m - 1 ) Nd ( X i , Y j ) 2 / ( m - 1 ) ) - 1 , ]]> 1≤k≤J,1≤i≤N (式3)Y k = Σ i = 1 N u k m ( X i ) X i Σ i = 1 N u k m ( X i ) ]]> 1≤k≤J (式4)其中m∈[1,∞)为模糊度,d(Xi,Yk)表示距离;(4-7)选择常数ε>0,设置迭代次数k=0,以(4-6)的类中心作为初始码本,采用模糊C均值(FCM)聚类算法递推出码本Yj(i=1,2,…J);(4-8)对每种情感按(4-1)~(4-7)训练出一个码本;(5)情感识别(5-1)对于待识别语句按照步骤(1)(2)(3)求出特征矢量Xi,把Xi量化成由隶属度函数组成的矢量U(Xi)={u1,(Xi),u2(Xi),...,uJ(Xi)},得到Xi的重构矢量
和量化误差D;X ^ i = Σ k = 1 J u k m Y k / Σ k = 1 J u k m ]]> (式5)D = Σ k = 1 J u k m ( X i ) d ( X i , Y k ) ]]> (式6)(5-2)选择平均量化失真最小的那个码本对应的情感为识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邹采荣;赵力,未经邹采荣;赵力许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810122806.2/,转载请声明来源钻瓜专利网。