[发明专利]一种基于子带谱熵的语音增强方法有效

申请号：	201811031344.3	申请日：	2018-09-05
公开（公告）号：	CN109102823B	公开（公告）日：	2022-12-06
发明（设计）人：	吕勇	申请（专利权）人：	河海大学
主分类号：	G10L21/0232	分类号：	G10L21/0232;G10L21/0264;G10L25/84
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	211100 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于子带谱熵语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于子带谱熵的语音增强方法，首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断，增强噪声估计算法对非平稳环境的实时跟踪能力。

技术领域

本发明属于语音信号处理技术领域，具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值，对含噪语音进行谱减，恢复纯净语音的语音增强方法。

背景技术

在语音的传输过程中，不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉，而且会给语音编码、语音识别等应用系统带来不利影响。因此，在实际应用中，就需要采用各种语音增强方法抑制噪声干扰，增强有用语音信号，增加语音的可懂度。

在传统的语音增强算法中，需要对含噪语音进行端点检测，将其划分为有音段和静音段，即将每一帧信号判断为语音帧和非语音帧。在静音段，估计噪声频谱的均值；在有音段，利用估得的噪声均值，对每个语音帧的幅度谱进行增强，减小噪声干扰的影响。然而，实际环境中的背景噪声往往是非平稳的，在有音段，噪声的类型或强度也有可能发生变化。因此，仅仅在静音段估计噪声，无法实时跟踪非平稳噪声的变化，这会给语音增强带来不利影响。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于子带谱熵的语音增强方法。

技术方案：一种基于子带谱熵的语音增强方法，首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强。

本发明的具体步骤如下：

(1)对含噪语音进行预处理，包括加窗、分帧和快速傅里叶变换(FFT：FastFourier Transform)，并将每帧信号的频谱分为幅度部分和相位部分；

(2)将含噪语音的幅度谱划分为若干个子带，并计算每个子带上的谱熵；

(3)根据每个子带上的谱熵，判断该子带是否存在语音；

(4)若某子带上不存在语音，则对该子带上的每个数字频率，用平滑滤波方式更新其噪声均值，并将其幅度谱设置为噪声均值的0.01倍；

(5)若某子带上存在语音，则对该子带上的每个数字频率，用加权谱减法减小噪声的影响，增强含噪语音的幅度谱，提高含噪语音的信噪比；

(6)对增强后的语音信号进行IFFT(Inverse FFT)运算，得到时域信号；

(7)对时域帧信号进行重叠相加，得到增强后的连续语音。

本发明采用上述技术方案，具有以下有益效果：