[发明专利]基于核主成分分析改进Mel滤波器的语音特征提取方法有效
申请号: | 201710100827.3 | 申请日: | 2017-02-23 |
公开(公告)号: | CN106898362B | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 张毅;倪雷 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/24;G10L15/02;G10L15/20 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 成分 分析 改进 mel 滤波器 语音 特征 提取 方法 | ||
本发明公开了一种基于核主成分分析改进Mel滤波器的语音特征提取方法包括步骤:S1,对初始输入语音信号数字化采样、预加重和分帧加窗等处理得到预处理后的语音信号;S2,根据伽马通滤波器特性计算处理后语音信号的伽马通滤波倒谱系数特征;S3,提取伽马通滤波倒谱系数的滑动差分;S4,计算预处理语音信号的基音频率;S5,根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合;S6,根据核主成分分析对数据融合后语音特征转换降维。本发明可获得更具鲁棒性的特征参数。
技术领域
本发明涉及语音信号处理领域,特别是一种改进Mel滤波器的语音特征提取方法。
背景技术
语音信号的特征提取是对输入语音信号在其含有背景噪声的情况下,提取能够有效表征语音信号的特征参数。它解决了环境噪声恶化情形下语音识别系统的识别性能急剧下降的问题。
在对特征参数选择的问题上,目前主流的研究热点是共振峰频率、线性预测系数(LPC)、线谱对(LSP)、线性预测倒谱系数(LPCC)、基于人耳听觉特性的梅尔倒谱系数(MFCC)、伽马通滤波倒谱系数(GFCC)。在信噪比较高情形时基于MFCC的语音识别结果会受到严重影响,识别率急剧地下降,而GFCC是基于声道模型的特征向量,相比MFCC对于环境噪声的鲁棒性更强。标准的GFCC只反映了语音参数的静态特性,而人耳对语音的动态特性更高敏感,二次特征提取就是对原始的GFCC进行分析处理。运用滑动差分方法,进一步得到隐藏在语音特征背后的特征信息。
基音频率是语音识别系统中最重要的判别依据,反映了语音信号的浊音发声时声带振动的频率,能够有效区分语音信息与噪声信号。基于单一特征的识别率往往受其他因素影响恶劣,因此融合GFCC和基音频率两种特征参数作为语音特征,两种参数体现了不同的语音特性,GFCC利用了人耳听觉的非线性特性,更具有鲁棒性;基音频率体现了不同信号声学特征。
自适应融合特征后的语音信号存在两个问题:一是特征矩阵过大,存在降维计算需要;二是信息之间存在冗余,不利于后续处理。因此利用核主成分分析方法对融合特征数据进行转换降维,降低了计算复杂度,提高了识别的实时性。将核函数和主成分分析两种方法进行结合,通过非线性映射实现输入空间到特征空间的转换,求取其协方差矩阵C及其特征值和特征向量,最后进行主成分抽取。
发明内容
本发明旨在解决现有方法中存在的特征参数鲁棒性低问题,特别提出了一种基于核主成分分析改进Mel滤波器的语音特征提取方法。
为了实现本发明的上述目的,本发明提供了一种基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:
S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号。
S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数。
S3对伽马通滤波倒谱系数进行滑动差分处理。
S4根据自相关函数对预处理语音信号进行基音频率提取。
S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合。
S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。
上述方法中预加重的传递函数为:
H(z)=1-a*z-1
其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好;H(z)表示传递函数,z表示函数变量。
所述分帧加窗处理中采用的加窗函数为:
w(n)表示窗函数,L表示窗函数的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710100827.3/2.html,转载请声明来源钻瓜专利网。