[发明专利]一种提升语音听感的降噪方法在审
申请号: | 202011497927.2 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112750451A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 关海欣;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L19/03 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 语音 方法 | ||
本发明涉及一种提升语音听感的降噪方法,通过对语音流信号进行分帧、加窗处理后,经傅里叶变换转换到频域X(n,k),n、k分别为时、频坐标;然后通过提取该语音帧特征,通过深度学习网络计算获得该帧各频点增益GainNN(n,k),估计的干净语音谱Snn;进而通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark,并通过扩展函数扩展到整个频谱T;再通过频谱T计算最终增益的参数,及最终的估计谱S;最终经过傅里叶反变换及重叠相加法恢复出语音音频信号,以提升听感。
技术领域
本发明涉及语音识别领域,具体涉及一种提升语音听感的降噪方法。
背景技术
音流中可分为噪声阶段与语音加噪声阶段,深度神经网络降噪方法对于纯噪声阶段与语音加噪声阶段处理特性并不一致,表现为噪声阶段处理很干净,但语音阶段出于保护语音包络机制,对噪声抑制偏弱,频谱中可见峰谷值之间差异并不显著,听感上语音阶段噪声突起顿挫,严重影响主官感受。
发明内容
本发明提供一种提升语音听感的降噪方法,能够解决如上所述的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明提供一种提升语音听感的降噪方法,包括:
S100获取带噪语音信号,对带噪语音信号进行预处理得到所述带噪语音信号频域X(n,k)特征;
S200通过提取所述带噪语音信号频域X(n,k)特征,结合深度学习网络得到预估的干净语音谱Snn;
S300通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark得到扩展频谱T;
S400通过扩展频谱T计算最终的估计谱S;
S500将所述估计谱S恢复出语音输出信号。
进一步地,所述预处理包括对所述带噪语音信号进行分帧加窗处理得到训练语音数据。
进一步地,所述预处理还包括对所述训练语音数据进行傅里叶变换转换到语音帧频域X(n,k),其中n、k分别为时、频坐标。
进一步地,所述分帧加窗处理采用汉明窗。
进一步地,所述干净语音谱Snn通过提取所述语音帧频域X(n,k)特征,以及深度学习网络计算获得该帧各频点增益GainNN(n,k),进而获得。
进一步地,所述扩展频谱T基于预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark,并通过扩展函数扩展得到。
进一步地,通过扩展频谱T计算最终增益的参数α和参数β,从而得到最终的估计谱S。
进一步地,所述语音输出信号基于估计谱S进行傅里叶反变换及重叠相加法将得出。
据本发明实施例的另一个方面,提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行前述提升语音听感的降噪方法。
从而,基于上述方案,不仅使听感有比较明显提升,而且经测试客观指标PESQ、SNR均普遍提升。
附图说明
图1为本发明实施例提供的一种提升语音听感的降噪方法示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
S100获取带噪语音信号,进行预处理。
对带噪语音信号进行分帧、加窗处理后,经傅里叶变换转换到频域X(n,k),n、k分别为时、频坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011497927.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种误识别抑制方法
- 下一篇:一种数据传输方法、装置、终端设备和存储介质