[发明专利]一种用于说话人无关的语音情感识别的谐波特征提取方法有效
申请号: | 201310207961.5 | 申请日: | 2013-05-29 |
公开(公告)号: | CN103258531A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 王坤侠;安宁;李廉 | 申请(专利权)人: | 安宁 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 安徽汇朴律师事务所 34116 | 代理人: | 方荣肖 |
地址: | 230000 安徽省合肥市包河*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于说话人无关的语音情感识别的谐波特征提取方法,该谐波特征提取方法包括以下步骤:(1)构建基于傅里叶级数的谐波系数模型;(2)根据构建的谐波系数模型,提取语音信号的谐波系数特征参数并形成特征矢量;(3)将特征矢量作为数据输入,输入给支持向量机分类模型(SVM),进行说话人无关语音情感识别测试;(4)经过训练和测试输出谐波系数特征参数对说话人无关语音情感识别的效果。该方法将语音谐波系数特征应用到说话人无关的语音情感识别中,大大提高了识别率。 | ||
搜索关键词: | 一种 用于 说话 无关 语音 情感 识别 谐波 特征 提取 方法 | ||
【主权项】:
1.一种用于说话人无关的语音情感识别的谐波特征提取方法,其特征在于:其包括以下步骤:步骤一,构建基于傅里叶级数的谐波系数模型:对一语音信号x(m),满足公式(1)的傅里叶级数, x ( m ) = Σ k = 1 M a k ( m ) cos ( 2 πk F 0 ( m ) m ) + b k ( m ) sin ( 2 πk F 0 ( m ) m ) - - - ( 1 ) ]]> ;当语音信号x(m)在预定时间段内平稳时,对一个长度为N的有限的语音信号x(m),一N点离散信号[x(0),…,x(N-1)],经离散傅里叶变换后生成频谱信号[X(0),…,X(N-1)],离散傅里叶变换定义为公式(2):
,其中,k=0,1,2...,N-1,将离散傅里叶变换表示为公式(3)的线性系统X=Wx, X ( 0 ) X ( 1 ) X ( 2 ) . . . X ( N - 2 ) X ( N - 1 ) = 1 1 1 . . . 1 1 1 e - j 2 π N e - j 4 π N . . . e - j 2 ( N - 2 ) π N e - j 2 ( N - 1 ) π N 1 e - j 4 π N e - j 8 π N . . . e - j 4 ( N - 2 ) π N e - j 4 ( N - 2 ) π N . . . . . . . . . . . . . . . . . . 1 e - j 2 ( N - 2 ) π N e - j 4 ( N - 2 ) π N . . . e - j 2 ( N - 2 ) 2 π N e - j 2 ( N - 1 ) ( N - 2 ) π N 1 e - j 2 ( N - 1 ) π N e - j 4 ( N - 1 ) π N . . . e - j 2 ( N - 1 ) ( N - 2 ) π N e - j ( N - 1 ) 2 π N x ( 0 ) x ( 1 ) x ( 2 ) . . . x ( N - 2 ) x ( N - 1 ) - - - ( 3 ) ]]> ,构成语音信号谐波系数模型,其中,转换矩阵为
,X(k)为0到N-1区间的谐波系数,K为谐波次数;步骤二,提取基于谐波系数模型的特征参数;首先,谐波系数特征参数提取:将语音信号x(m)进行分帧,其中帧长16ms,帧移8ms,根据语音信号谐波系数模型,计算每一帧的谐波系数,语音信号的谐波系数X(N,I)=[X(0,1)X(1,1)…X(N1,1),…,X(0,i-1)X(1,i-1)…X(N1,i-1),X(0,i)X(1,i)…X(N-1,1),](4),其中i为帧数,根据公式(4)将语音信号x(m)的各次谐波系数进行统计,计算其最大值、最小值、中位数、平均值以及方差,得到语音信号的全局特征向量如公式(5), X min = min ( X ( N , 1 ) , X ( N , 2 ) , . . . , X ( N , i ) ) X max = max ( X ( N , 1 ) , X ( N , 2 ) , . . . , X ( N , i ) ) X med = median ( X ( N , 1 ) , X ( N , 2 ) , . . . , X ( N , i ) ) X mea = 1 k Σ i = 1 k X ( N , i ) X std = Σ i = 1 k ( X ( N , i ) - X avg ) 2 - - - ( 5 ) ]]> ;其次,谐波系数差分特征参数提取:将谐波系数特征参数提取步骤中得到的各次谐波系数根据式(6)进行一阶差分和二阶差分运算, ΔX = X ( N , i + 1 ) - X ( N , i ) i = 1,2 , . . . , I ΔΔX = ΔX ( N , i + 1 ) - ΔX ( N , i ) i = 1,2 , . . . , I - 2 - - - ( 6 ) ]]> ,得到语音信号的动态谐波系数序列,同样,根据式(5)计算一阶差分和二阶差分统计值,得到语音信号的全局动态特征向量;步骤三,将步骤(二)提取的特征矢量作为数据输入,输入给支持向量机分类模型(SVM),进行说话人无关语音情感识别测试;步骤四,经过训练和测试输出谐波系数特征参数对说话人无关语音情感识别的效果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安宁,未经安宁许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310207961.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种胶原纤维基布生产线
- 下一篇:开关电源及实现恒定输出电流的开关电源控制器