[发明专利]一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法有效
申请号: | 201811359541.8 | 申请日: | 2018-11-15 |
公开(公告)号: | CN109256127B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 葛洪伟;李聪;陈国俊 | 申请(专利权)人: | 江南大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L25/24;G10L15/20;G10L19/26;G10L21/0208;G10L25/27 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 非线性 变换 gammachirp 滤波器 语音 特征 提取 方法 | ||
本发明提供了一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,主要解决针对在噪声环境下语音识别系统性能急剧下降的问题,该方法通利用符合耳蜗听觉特性的Gammachirp滤波器组,并对该滤波器进行了压缩归一化的处理优化,在得到响应系数后,通过一个分段式非线性的幂函数变换过程,使其能够模拟人耳听觉模型处理信号的非线性特性。并且,方法中结合了相对谱RASTA滤波、均值方差归一化和时间序列滤波等技术方法,进一步提高了语音特征的抗噪鲁棒性。本发明方法能够提高噪声环境下语音识别系统的识别率,提高系统的抗噪鲁棒性,满足日常生活中如智能家居、车载系统和各种需要进行身份安全认证的安全领域。
技术领域
本发明属于模式识别和语音处理领域,涉及现实噪声环境下鲁棒语音识别方法。具体地说是一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,可用于满足日常生活中如智能家居、车载系统等,以及在需要进行安全认证的各种安全领域。
背景技术
语音识别相关系统在其最基本的层次上,是从各种领域和学科研究得到的不同方法的集合体,其中包括信号处理、模式识别和语音语言学等多种学科。这些学科方法中的每一种都要将语音信号波形转化为某种类型的参数表示,这也就是所谓的语音特征提取。特征提取是语音信号处理中最基本也是最重要的一个过程,一种好的特征提取算法能够准确的提取到符合人耳听觉特性的音频特征,并且能够避免由于日常噪声环境所带来的不利影响。
最为经典的语音特征提取方案是以Mel滤波器作为听觉滤波器的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC),Mel滤波器由一组不同频率的三角滤波器组成,模拟了人耳听觉频率的非线性特征,是使用最广泛的听觉滤波器。但是由于其对人耳听觉的研究并不完全,在提取过程中忽略了部分能量信息,所以在噪声环境下会表现出一定的缺陷。为了弥补梅尔滤波器的不足,Aertesn教授在充分研究人耳耳蜗听觉特性后提出了Gammatone滤波器,一定程度上减小了噪声对特征提取的影响。Irion等人在Gammatone滤波器基础之上,提出了符合耳蜗基底膜对于频率响应是非线性的特性的Gammachirp滤波器,该滤波器作为目前较为理想的听觉滤波器,继承了Gammatone滤波器的优点,并弥补了其在非对称性上的不足问题。虽然基于Gammachirp滤波器的特征能够提升系统的识别率,但在低信噪比噪声环境下,其仍存在抗噪性能较差的问题。
发明内容
传统的语音特征提取针对安静环境能够有较好的效果,但在复杂的噪声环境下,这类算法普遍存在抗噪性能不佳的问题。为了满足现实噪声环境下的实际应用,本发明通过对人耳听觉特性的研究来寻求抗噪性能较好的语音特征参数,在伽马啁啾频率倒谱系数(Gammachirp Frequency Cepstrum Confficient,GCFCC)的基础之上,对原始Gammachirp滤波器进行了压缩归一化处理优化,并在提取过程中,对特征参数进行了分段非线性幂函数变换处理,提出了非线性幂函数变换伽马啁啾频率倒谱系数(Nonlinear Power-Function Gammachirp Frequency Cepstral Coefficients,NPGFCC)特征提取算法,该特征基于抗噪性能较好的压缩归一化Gammachirp滤波器,并通过利用分段式非线性幂函数变换、RASTA滤波、均值方差归一化和时间序列滤波等技术方法,能够弥补其他诸如MFCC、GCFCC等特征提取中出现的能量幅值波动较大的问题,在噪声环境下能够有更好的识别性能,进一步提高了语音特征的抗噪鲁棒性。
为实现上述目标,本发明的技术方案如下:
一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,步骤如下:
(1)语音信号预处理:对输入的语音信号x(n)进行预加重处理:y(n)=x(n)-μ·x(n-1),其中,μ为预加重系数,范围为0.92~0.98,y(n)是预加重处理后的语音信号,n为语音信号的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811359541.8/2.html,转载请声明来源钻瓜专利网。