[发明专利]一种基于子带谱熵的语音增强方法有效
申请号: | 201811031344.3 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109102823B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L21/0264;G10L25/84 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 子带谱熵 语音 增强 方法 | ||
本发明公开了一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。
技术领域
本发明属于语音信号处理技术领域,具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值,对含噪语音进行谱减,恢复纯净语音的语音增强方法。
背景技术
在语音的传输过程中,不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉,而且会给语音编码、语音识别等应用系统带来不利影响。因此,在实际应用中,就需要采用各种语音增强方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度。
在传统的语音增强算法中,需要对含噪语音进行端点检测,将其划分为有音段和静音段,即将每一帧信号判断为语音帧和非语音帧。在静音段,估计噪声频谱的均值;在有音段,利用估得的噪声均值,对每个语音帧的幅度谱进行增强,减小噪声干扰的影响。然而,实际环境中的背景噪声往往是非平稳的,在有音段,噪声的类型或强度也有可能发生变化。因此,仅仅在静音段估计噪声,无法实时跟踪非平稳噪声的变化,这会给语音增强带来不利影响。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于子带谱熵的语音增强方法。
技术方案:一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。
本发明的具体步骤如下:
(1)对含噪语音进行预处理,包括加窗、分帧和快速傅里叶变换(FFT:FastFourier Transform),并将每帧信号的频谱分为幅度部分和相位部分;
(2)将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵;
(3)根据每个子带上的谱熵,判断该子带是否存在语音;
(4)若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;
(5)若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;
(6)对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;
(7)对时域帧信号进行重叠相加,得到增强后的连续语音。
本发明采用上述技术方案,具有以下有益效果:
本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。
附图说明
图1为本发明实施例的基于子带谱熵的语音增强方法的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于子带谱熵的语音增强方法主要包括语音预处理、子带划分、子带谱熵计算、噪声估计、幅度增强、IFFT和重叠相加部分。
1、语音预处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811031344.3/2.html,转载请声明来源钻瓜专利网。