[发明专利]一种基于Mel域的小波语音识别特征参数提取方法在审
申请号: | 201711439300.X | 申请日: | 2017-12-27 |
公开(公告)号: | CN108172214A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 胡宁;胡晓宁;程海峰;宁璐;朱方敢;洪英举;王龙峰;王智超;王晏平 | 申请(专利权)人: | 安徽建筑大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L15/06;G10L15/10;G10L25/18;G10L25/21 |
代理公司: | 安徽深蓝律师事务所 34133 | 代理人: | 汪锋 |
地址: | 230601 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别特征 参数提取 识别候选 小波 滤波器 预处理 离散小波变换 离散余弦变换 特征矢量参数 小波滤波器 参考模型 反映信号 训练语音 语音信号 语音知识 元音识别 辅音 替换 输出 | ||
本发明公开了一种基于Mel域的小波语音识别特征参数提取方法,首先对输入的语音信号进行预处理,然后提取反映信号特征的特征矢量参数,接着建立训练语音的参考模型库,然后通过比较得到识别候选结果输出,最后对识别候选结果通过语音知识处理得到最终的识别结果。本发明提出了参数WPCC,小波滤波器替换Mel滤波器,离散小波变换取代离散余弦变换,将该参数用于辅音和元音识别,具有较好的效果。
技术领域
本发明涉及语音参数提取方法领域,具体是一种基于Mel域的小波语音识别特征参数提取方法。
背景技术
语音识别中信号处理一般都采用的是傅里叶变换。傅里叶变换物理意义直观、计算简捷,广泛应用在信号的谱分析中。但是也有严重的不足。傅里叶变换表示了信号频谱的统计特性,它是信号在整个时域内的积分,信号的频谱表征了信号中频率分量的总强度,但却不能表明这些频率分量是何时产生的,没有局部分析信号的功能,不具备瞬变信息。而在对时变或非平稳语音信号(尤其辅音)的分析中,应当尽可能的知道信号在任意时刻附近的频域特征,因此将一维的时域信号映射到一个二维的时频平面来观察信号的时频特性,即构建信号的相空间,则形成信号的时频分析。小波变换对不同的频率成分在时频域上的取样步长是调节性的,它在高频时取样步长小,而在低频时取样步长大。小波变换在时频域都有局部分析能力,正是这些特性,使得小波变换在语音信号处理中有更大的优势。
傅氏变换处理平稳信号较好,而对非平稳信号处理效果差。对辅音在时频域变化快的信号,小波变换是较好的选择。Farooq等人[1]提出用小波包得到局部频率段特征,小波包将频率划分为多个子带,子带能量值作为特征参数,在塞音识别中,识别率比参数MFCC提高了10个百分点。有噪语音相对于干净语音上在时频域上叠加了干扰值,在特征参数中提取中减去一个定值,这个值相当于白噪声的频谱值,和干净语音特性接近[2];Farooq[3]又用离散小波变换划分局部频率段,低频部分得到较细的划分,在音素识别中元音识别率最好。生理学研究证明,对听觉起关键作用的耳蜗内基底膜,其作用相当于一组建立在薄膜振动基础上的恒Q的带通频率分析器。并且生理信号被分解后长表现出高频分量持续时间较短,低频分量持续时间较长的特点。这也正和小波分析的性质互相吻合。为此,张学英等人[4]提出基于Bark域小波包分解,应用在语音识别中,在噪音中识别率比参数MFCC高10个百分点。小波包分解在小波空间和尺度空间进行分解,得到众多频段,从信号处理的观点看,用尽量少的系数,反映尽可能多的信息,这需要优化小波包分解。Jorge Silva[5]提出最低代价树裁剪算法进行小波包分解,在音素识别中取得较好的效果,P.K.Sahu等人提出基于Bark域小波包分解[6][7]取代耳蜗带通滤波器组,再提取参数,在孤立词识别中识别效果较佳,尤其在噪音环境中。
参数MFCC最后一步是倒谱运算,倒谱运算包含离散余弦变换,离散余弦变换是傅氏变换的实部,傅氏变换是信号的统计特性,它是信号整个时域内的积分,当一个频段受到噪声影响,整个频段都要受到波及。而且傅氏变换在高频有严重的频谱泄漏。离散小波变换对信号局部分析能力强,它可以表征信号的局部特征。利用离散小波变换取代倒谱运算中的离散余弦变换,噪音一般在高频系数中,提取低频系数[8],达到去噪的效果,用在说话人识别的特征提取[9]和语音识别的特征提取中[10],在有噪语音中识别率较佳。
一帧语音信号可能包含两个音素,假如前一个音素是辅音,后一个音素为元音,则前一个音素频率的低频和高频受到后一个音素低频和高频的影响,MFCC 参数提取是对整个频段处理,无法克服临近音素的影响。而离散小波变换捕捉到音素过渡的信息,而这种过渡信息可能只出现在一些局部频率段,Nehe N.S.[11] 用离散小波变换对信号频段划分,在子带做LPCC(Linear Predictive Cepstral Coefficient),对语音识别取得了较好的结果。同样Weaam Alkhaldi[12]应用在在阿拉伯语识别和电话语音识别[13]系统中。Malik[14]用同样的方法运用在说话人识别中。Mangesh S.Deshpande[15]用小波包分解划分频段,Jian-Da Wu[16]用不规则小波包分解划分频段,在说话人识别中都取得了较好的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽建筑大学,未经安徽建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711439300.X/2.html,转载请声明来源钻瓜专利网。