[发明专利]基于GMM噪声估计的语音增强方法在审
申请号: | 201410704574.7 | 申请日: | 2014-11-26 |
公开(公告)号: | CN104464728A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/0216 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gmm 噪声 估计 语音 增强 方法 | ||
技术领域
本发明属于语音识别技术领域,具体涉及到用高斯混合模型(GMM:Gaussian Mixture Model)估计背景噪声和谱减系数,对含噪语音进行谱减,恢复纯净语音的语音增强方法。
背景技术
在实际应用中,语音通信不可避免地会受到环境噪声的干扰。为了减小噪声对语音信号的影响,在语音通信中,需要采用某些方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度,这些方法就是语音增强。根据语音通道的个数,语音增强可以分为单通道语音增强、双通道语音增强和多通道语音增强。虽然双通道和多通道语音增强可以取得更好的增强效果,但是在很多情况下,只有一路语音信号可用,因此单通道语音增强的研究仍然具有重要的意义。
谱减法是一种基于短时谱估计的单通道语音增强方法,具有运算量小、易于实现的特点,因而受到广泛应用。在谱减法中,根据非语音段估得的噪声频谱均值,从含噪语音频谱中减去噪声频谱均值,即可得到纯净语音频谱。由于噪声的频谱是一个随机变量,在非语音段,只能估计其均值;对语音段的每一帧频谱,由于无法获得噪声频谱的分布信息,只能减去噪声频谱的均值,这就导致谱减后的语音存在较多的残留噪声,与实际纯净语音相差较大。因此,在谱减法中,通常设置谱减系数,其设置原则为:在纯噪声频段,谱减系数较大,减去较多的噪声;在含有语音的频段,谱减系数较小,避免损伤语音。
噪声估计一直是谱减法语音增强的关键技术之一,一般通过对语音间隙期的噪声功率谱进行平滑得到噪声频谱的均值。然而,环境噪声往往是非平稳的,在语音段,噪声的类型或强度也有可能发生变化,因此噪声估计不能仅仅局限于语音间隙期,在语音存在期间也应该连续更新噪声。目前,逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值,用含噪语音频谱的最小值代表噪声频谱大小。这种方法的主要缺点是噪声估计存在一定的延迟,无法实时跟踪非平稳噪声。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于高斯混合模型(GMM)噪声估计的语音增强方法。
技术方案:一种基于GMM噪声估计的语音增强方法,首先,含噪语音经过预处理得到含噪语音的幅度和相位,幅度用于噪声估计和谱减,相位用于恢复时域信号;然后利用GMM从含噪语音中实时估计噪声参数和纯净语音MFCC(Mel frequency cepstral coefficient),并根据估得的纯净语音特征MFCC计算谱减系数;最后,对含噪语音的频谱进行谱减,恢复时域信号,并用重叠相加法得到增强后的语音。
方法的具体过程如下:
(1)对含噪语音进行预处理,包括加窗、分帧和FFT(Fast Fourier Transform),并将每帧信号的频谱分为幅度部分和相位部分;
(2)根据含噪语音幅度谱,提取含噪语音MFCC;
(3)利用训练阶段生成的GMM从含噪语音MFCC中估计噪声的均值和方差,在噪声估计中不区分非语音帧和语音帧;
(4)利用估得的噪声参数对GMM的均值和方差进行变换,使之与当前环境相匹配,并用最小均方误差算法估计纯净语音MFCC;
(5)将估得的纯净语音MFCC变换到线性谱域,计算人耳的掩蔽阈值,得到每个离散数字频率k处的掩蔽阈值T(k),并根据T(k)计算谱减系数;
(6)对每帧含噪语音进行端点检测,判断其是语音帧还是非语音帧;
(7)根据估得的噪声均值和谱减系数,对语音帧的含噪语音频谱进行幅度谱减,得到增强后的语音幅度谱;
(8)对非语音帧的幅度谱进行处理,一般只需要乘以一个较小的系数即可,系数值一般取0.01;
(9)对增强后的每帧信号进行IFFT(Inverse FFT)运算,得到每帧时域信号,在进行IFFT运算时,相位采用该帧含噪语音的相位;
(10)对语音全部帧的时域信号进行重叠相加,得到增强后的语音。
本发明采用上述技术方案,具有以下有益效果:在本发明的语音增强方法中,噪声估计不局限于语音间隙期的静音段,而是通过GMM模型逐帧估计噪声参数,不区分静音段和语音段,无需端点检测算法。因此,在非平稳环境中,基于GMM噪声估计的语音增强方法可以更好地跟踪环境噪声的变化,得到更加准确的纯净语音信号,优于传统的语音增强算法。
附图说明
图1为本发明实施例的方法流程图,该方法主要包括语音预处理、特征提取、噪声参数估计、纯净语音估计、谱减系数估计、端点检测、语音帧谱减、非语音帧处理、IFFT和重叠相加10个模块。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410704574.7/2.html,转载请声明来源钻瓜专利网。