[发明专利]基于GMM噪声估计的语音增强方法在审

专利信息
申请号: 201410704574.7 申请日: 2014-11-26
公开(公告)号: CN104464728A 公开(公告)日: 2015-03-25
发明(设计)人: 吕勇 申请(专利权)人: 河海大学
主分类号: G10L15/20 分类号: G10L15/20;G10L21/0216
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 gmm 噪声 估计 语音 增强 方法
【说明书】:

技术领域

发明属于语音识别技术领域,具体涉及到用高斯混合模型(GMM:Gaussian Mixture Model)估计背景噪声和谱减系数,对含噪语音进行谱减,恢复纯净语音的语音增强方法。

背景技术

在实际应用中,语音通信不可避免地会受到环境噪声的干扰。为了减小噪声对语音信号的影响,在语音通信中,需要采用某些方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度,这些方法就是语音增强。根据语音通道的个数,语音增强可以分为单通道语音增强、双通道语音增强和多通道语音增强。虽然双通道和多通道语音增强可以取得更好的增强效果,但是在很多情况下,只有一路语音信号可用,因此单通道语音增强的研究仍然具有重要的意义。

谱减法是一种基于短时谱估计的单通道语音增强方法,具有运算量小、易于实现的特点,因而受到广泛应用。在谱减法中,根据非语音段估得的噪声频谱均值,从含噪语音频谱中减去噪声频谱均值,即可得到纯净语音频谱。由于噪声的频谱是一个随机变量,在非语音段,只能估计其均值;对语音段的每一帧频谱,由于无法获得噪声频谱的分布信息,只能减去噪声频谱的均值,这就导致谱减后的语音存在较多的残留噪声,与实际纯净语音相差较大。因此,在谱减法中,通常设置谱减系数,其设置原则为:在纯噪声频段,谱减系数较大,减去较多的噪声;在含有语音的频段,谱减系数较小,避免损伤语音。

噪声估计一直是谱减法语音增强的关键技术之一,一般通过对语音间隙期的噪声功率谱进行平滑得到噪声频谱的均值。然而,环境噪声往往是非平稳的,在语音段,噪声的类型或强度也有可能发生变化,因此噪声估计不能仅仅局限于语音间隙期,在语音存在期间也应该连续更新噪声。目前,逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值,用含噪语音频谱的最小值代表噪声频谱大小。这种方法的主要缺点是噪声估计存在一定的延迟,无法实时跟踪非平稳噪声。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种基于高斯混合模型(GMM)噪声估计的语音增强方法。

技术方案:一种基于GMM噪声估计的语音增强方法,首先,含噪语音经过预处理得到含噪语音的幅度和相位,幅度用于噪声估计和谱减,相位用于恢复时域信号;然后利用GMM从含噪语音中实时估计噪声参数和纯净语音MFCC(Mel frequency cepstral coefficient),并根据估得的纯净语音特征MFCC计算谱减系数;最后,对含噪语音的频谱进行谱减,恢复时域信号,并用重叠相加法得到增强后的语音。

方法的具体过程如下:

(1)对含噪语音进行预处理,包括加窗、分帧和FFT(Fast Fourier Transform),并将每帧信号的频谱分为幅度部分和相位部分;

(2)根据含噪语音幅度谱,提取含噪语音MFCC;

(3)利用训练阶段生成的GMM从含噪语音MFCC中估计噪声的均值和方差,在噪声估计中不区分非语音帧和语音帧;

(4)利用估得的噪声参数对GMM的均值和方差进行变换,使之与当前环境相匹配,并用最小均方误差算法估计纯净语音MFCC;

(5)将估得的纯净语音MFCC变换到线性谱域,计算人耳的掩蔽阈值,得到每个离散数字频率k处的掩蔽阈值T(k),并根据T(k)计算谱减系数;

(6)对每帧含噪语音进行端点检测,判断其是语音帧还是非语音帧;

(7)根据估得的噪声均值和谱减系数,对语音帧的含噪语音频谱进行幅度谱减,得到增强后的语音幅度谱;

(8)对非语音帧的幅度谱进行处理,一般只需要乘以一个较小的系数即可,系数值一般取0.01;

(9)对增强后的每帧信号进行IFFT(Inverse FFT)运算,得到每帧时域信号,在进行IFFT运算时,相位采用该帧含噪语音的相位;

(10)对语音全部帧的时域信号进行重叠相加,得到增强后的语音。

本发明采用上述技术方案,具有以下有益效果:在本发明的语音增强方法中,噪声估计不局限于语音间隙期的静音段,而是通过GMM模型逐帧估计噪声参数,不区分静音段和语音段,无需端点检测算法。因此,在非平稳环境中,基于GMM噪声估计的语音增强方法可以更好地跟踪环境噪声的变化,得到更加准确的纯净语音信号,优于传统的语音增强算法。

附图说明

图1为本发明实施例的方法流程图,该方法主要包括语音预处理、特征提取、噪声参数估计、纯净语音估计、谱减系数估计、端点检测、语音帧谱减、非语音帧处理、IFFT和重叠相加10个模块。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410704574.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top