[发明专利]基于GMM噪声估计的语音增强方法在审

申请号：	201410704574.7	申请日：	2014-11-26
公开（公告）号：	CN104464728A	公开（公告）日：	2015-03-25
发明（设计）人：	吕勇	申请（专利权）人：	河海大学
主分类号：	G10L15/20	分类号：	G10L15/20;G10L21/0216
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	211100 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 gmm 噪声估计语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语音识别技术领域，具体涉及到用高斯混合模型(GMM：Gaussian Mixture Model)估计背景噪声和谱减系数，对含噪语音进行谱减，恢复纯净语音的语音增强方法。

背景技术

在实际应用中，语音通信不可避免地会受到环境噪声的干扰。为了减小噪声对语音信号的影响，在语音通信中，需要采用某些方法抑制噪声干扰，增强有用语音信号，增加语音的可懂度，这些方法就是语音增强。根据语音通道的个数，语音增强可以分为单通道语音增强、双通道语音增强和多通道语音增强。虽然双通道和多通道语音增强可以取得更好的增强效果，但是在很多情况下，只有一路语音信号可用，因此单通道语音增强的研究仍然具有重要的意义。

谱减法是一种基于短时谱估计的单通道语音增强方法，具有运算量小、易于实现的特点，因而受到广泛应用。在谱减法中，根据非语音段估得的噪声频谱均值，从含噪语音频谱中减去噪声频谱均值，即可得到纯净语音频谱。由于噪声的频谱是一个随机变量，在非语音段，只能估计其均值；对语音段的每一帧频谱，由于无法获得噪声频谱的分布信息，只能减去噪声频谱的均值，这就导致谱减后的语音存在较多的残留噪声，与实际纯净语音相差较大。因此，在谱减法中，通常设置谱减系数，其设置原则为：在纯噪声频段，谱减系数较大，减去较多的噪声；在含有语音的频段，谱减系数较小，避免损伤语音。

噪声估计一直是谱减法语音增强的关键技术之一，一般通过对语音间隙期的噪声功率谱进行平滑得到噪声频谱的均值。然而，环境噪声往往是非平稳的，在语音段，噪声的类型或强度也有可能发生变化，因此噪声估计不能仅仅局限于语音间隙期，在语音存在期间也应该连续更新噪声。目前，逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值，用含噪语音频谱的最小值代表噪声频谱大小。这种方法的主要缺点是噪声估计存在一定的延迟，无法实时跟踪非平稳噪声。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于高斯混合模型(GMM)噪声估计的语音增强方法。

技术方案：一种基于GMM噪声估计的语音增强方法，首先，含噪语音经过预处理得到含噪语音的幅度和相位，幅度用于噪声估计和谱减，相位用于恢复时域信号；然后利用GMM从含噪语音中实时估计噪声参数和纯净语音MFCC(Mel frequency cepstral coefficient)，并根据估得的纯净语音特征MFCC计算谱减系数；最后，对含噪语音的频谱进行谱减，恢复时域信号，并用重叠相加法得到增强后的语音。

方法的具体过程如下：

(1)对含噪语音进行预处理，包括加窗、分帧和FFT(Fast Fourier Transform)，并将每帧信号的频谱分为幅度部分和相位部分；

(2)根据含噪语音幅度谱，提取含噪语音MFCC；

(3)利用训练阶段生成的GMM从含噪语音MFCC中估计噪声的均值和方差，在噪声估计中不区分非语音帧和语音帧；

(4)利用估得的噪声参数对GMM的均值和方差进行变换，使之与当前环境相匹配，并用最小均方误差算法估计纯净语音MFCC；

(5)将估得的纯净语音MFCC变换到线性谱域，计算人耳的掩蔽阈值，得到每个离散数字频率k处的掩蔽阈值T(k)，并根据T(k)计算谱减系数；

(6)对每帧含噪语音进行端点检测，判断其是语音帧还是非语音帧；

(7)根据估得的噪声均值和谱减系数，对语音帧的含噪语音频谱进行幅度谱减，得到增强后的语音幅度谱；

(8)对非语音帧的幅度谱进行处理，一般只需要乘以一个较小的系数即可，系数值一般取0.01；

(9)对增强后的每帧信号进行IFFT(Inverse FFT)运算，得到每帧时域信号，在进行IFFT运算时，相位采用该帧含噪语音的相位；

(10)对语音全部帧的时域信号进行重叠相加，得到增强后的语音。

本发明采用上述技术方案，具有以下有益效果：在本发明的语音增强方法中，噪声估计不局限于语音间隙期的静音段，而是通过GMM模型逐帧估计噪声参数，不区分静音段和语音段，无需端点检测算法。因此，在非平稳环境中，基于GMM噪声估计的语音增强方法可以更好地跟踪环境噪声的变化，得到更加准确的纯净语音信号，优于传统的语音增强算法。

附图说明

图1为本发明实施例的方法流程图，该方法主要包括语音预处理、特征提取、噪声参数估计、纯净语音估计、谱减系数估计、端点检测、语音帧谱减、非语音帧处理、IFFT和重叠相加10个模块。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410704574.7/2.html，转载请声明来源钻瓜专利网。

上一篇：应用于数据记录设备的插拔装置
下一篇：液晶显示装置的时脉产生电路及其操作方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于GMM噪声估计的语音增强方法在审

专利文献下载