[发明专利]基于多波段结构时域音频分离网络的语音增强方法及装置有效
申请号: | 202110910066.4 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113571074B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 刘文璟;展华益 | 申请(专利权)人: | 四川启睿克科技有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L15/16;G10L21/0208 |
代理公司: | 四川省天策知识产权代理有限公司 51213 | 代理人: | 刘堋 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 波段 结构 时域 音频 分离 网络 语音 增强 方法 装置 | ||
本发明公开了一种基于多波段结构时域音频分离网络的语音增强方法及装置,方法包括:采集待增强的单通道语音数据;利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号;通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。本发明具有多种实现架构的时域音频分离网络与多波段结构信号处理框架的结合显著增加了该语音增强方法的灵活性以及鲁棒性。本发明极大提高了增强语音信号的信噪比、语音质量感知评价等语音质量指标,能够对待增强语音中的非平稳噪声部分进行有效抑制,大幅提升了短时客观可懂度,主观平均意见分等语音可懂度及听感指标。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于多波段结构时域音频分离网络的语音增强方法及装置。
背景技术
随着人工智能等技术在语音处理领域的广泛普及,以语音识别技术(ASR)、语音合成技术(TTS)为代表的智能语音技术得到了飞速发展,对语音增强技术的需求也急剧上升,特别是在伴随着大量噪声的远场语音应用相关场景中。语音增强的主要目标是去除待增强语音信号中的噪声部分,从而还原出纯净语音部分,改善语音质量,进一步提高语音的听感和可懂度等指标。
以谱减法、维纳滤波为代表的基于传统语音处理的技术是最为常见的单通道语音增强方案。比如CN105489226A提供了一种基于多窗谱估计的维纳滤波语音增强方法,通过多窗谱估计和小波阈值去除噪声项得到近似纯净的语音谱,然后与维纳滤波处理后的语音谱相比较,根据不同的失真类型选择相应的谱作为最终增强的语音谱。
近年来,基于深度学习的语音增强逐渐成为了业界的主流方案,其中涉及的深度学习网络包含全连接神经网络、卷积神经网络、全卷积神经网络、循环神经网络、生成对抗网络等各式各样的框架。基于深度学习的单通道语音增强又主要分为变换域掩模(mask)估计方法和时域端到端方法。其中变换域掩模估计方法中较为常用的是基于短时傅里叶变换(STFT)幅度谱的理想浮值掩模(IRM),以及基于复数谱的复数浮值掩模(cIRM)。前者通过结合对STFT幅度谱的估计以及带噪相位,利用STFT逆变换对语音进行增强,后者则是同时对STFT的幅度谱和相位进行估计来重建增强信号。例如CN111754983A提供了一种语音去噪方法、装置、电子设备及存储介质,采用神经网络模型利用信号的STFT频谱图对纯净语音的幅度谱进行估计,再结合带噪相位通过STFT逆变换完成增强信号重建,达到语音去噪的目的。
现有的语音增强方法,主要存在着以下问题:
(1)传统语音增强方法等对非平稳噪音抑制作用不佳,在复杂的声音环境中,如商场、酒吧等嘈杂场景难以取得理想的噪声抑制效果。
(2)基于STFT时频掩模深度学习方法存在着未充分利用相位信息或相位预测不准等问题,并且模型的参数量及运算量过高容易引入系统时延,在落地部署上存在着一定的困难。
(3)基于时域端到端的深度学习语音增强方法,例如生成对抗网络语音增强方法则在信噪比、听感相关的指标上和变换域掩模估计的方法存在一定的差距。
发明内容
本发明提供了一种基于多波段结构时域音频分离网络的语音增强方法及装置,以解决基于传统语音处理技术的增强方法对非平稳噪声处理效果不理想以及基于深度学习的语音增强方法中普遍存在的一系列问题。
本发明采用的技术方案是:提供一种基于多波段结构时域音频分离网络的语音增强方法,包括:
采集待增强的单通道语音数据;
利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号;
通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,由时域音频分离网络和多波段信号合成网络共同组成的神经网络模型的训练步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110910066.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种射频开关的谐波测试方法及装置
- 下一篇:一种低能耗氯气供应站及使用方法