[发明专利]基于改进相位谱补偿和全卷积神经网络的语音增强算法在审

申请号：	202111534489.7	申请日：	2021-12-15
公开（公告）号：	CN114242099A	公开（公告）日：	2022-03-25
发明（设计）人：	邓立新;徐琦	申请（专利权）人：	南京邮电大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0216;G10L21/0232;G10L25/30
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	杜春秋
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于改进相位补偿卷积神经网络语音增强算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于改进相位谱补偿和全卷积神经网络的语音增强算法，对训练集语音数据进行预处理获取带噪语音和纯净语音的特征数据；结合带噪语音和纯净语音的特征数据引入帧信噪比优化相位补偿算法的补偿因子计算公式，再利用改进公式进行相位补偿因子的计算；搭建全卷积神经网络模型，相位补偿因子联合纯净语音的对数功率谱作为全卷积神经网络的训练目标，进行网络模型训练；将测试语音输入训练好的模型得到对数功率谱的估计值和相位补偿函数；利用对数功率谱的估计值和相位补偿函数分别进行语音信号的幅度谱和相位谱重建得到最终的增强语音。本发明在提高算法消噪能力的同时，更好地保证了语音可懂度，从而提升了语音增强的整体效果。

技术领域

本发明涉及一种语音增强方法，具体涉及一种基于改进相位谱补偿和全卷积神经网络的语音增强算法，属于语音信号处理技术领域。

背景技术

据了解，语音是人与人之间重要的信息交流方式，但在人们利用语音进行交流与通信的过程中，总会受到各种噪声的干扰。带噪语音不仅会增加人的听觉疲劳、降低语音通信质量，而且也会使基于特征参数提取的语音处理系统性能下降。所以，为了减小背景噪声对语音质量的影响，需要进行语音增强来抑制背景噪声。

相位谱补偿是一种利用语音相位谱信息增强语音信号的增强算法，其基本思想是：分别计算带噪语音信号短时幅度谱与估计的噪声信号的短时幅度谱，利用相位谱补偿函数进行补偿因子的计算，然后将补偿因子与带噪语音的频谱相叠加求出补偿后的语音频谱。恢复增强语音信号时利用补偿后的语音频谱求出补偿后的相位，再插入带噪语音信号的幅度谱，进行反离散傅里叶变换。相位补偿函数的通用形式为：

为噪声幅度谱的估计值，Ψ(k)为反对称函数，λ为补偿因子，传统的相位补偿因子λ为经验值，一般取3.74。

相位补偿的优点是运算量小,容易实现,增强效果也较好。但是因为当今语音增强算法多处理非平稳噪声，噪声能量具有不确定性，固定的补偿因子无法根据噪声的变化动态的调整为合适的值。固定的参数无法充分发挥相位补偿算法的效果，也无法结合DNN修正语音相位谱。因此，优化参数固定的补偿函数，引入有监督的参数学习，权衡考虑增强后的语音失真与去噪效果，是改进相位补偿算法，使其能充分发挥自身优势的重点所在。

基于深度神经网络的语音增强方法对比传统的方法显著的提高了非平稳噪声条件下的语音增强性能，是近年来语音增强领域的研究热点。现有的工作主要针对训练的特征和训练目标的设计以及网络结构的改进展开。根据训练特征和目标的设计方法，基于深度神经网络的语音增强方法可以分为时域和频域两类。频域的语音增强一般采用带噪语音的幅度谱或对数功率谱作为训练特征，除了幅度谱和对数功率谱之外，还可以把幅度谱掩蔽作为训练目标。时域的语音增强一般采用带噪语音和纯净语音的时域波形分别作为训练特征和训练目标。但已有的方案仍存在不少问题。频域的语音增强往往忽略了语音的相位信息，近年研究发现，仅增强语音的相位谱且保持带噪语音的幅度谱不变，可以有效提高语音质量。而时域的语音增算法虽然直接使用带噪语音和纯净语音的波形作为训练特征和训练目标，但是性能非常依赖损失函数的设计，复杂的损失函数大大提高了训练的难度。反之，采用简单的时域最小均方误差函数作为损失函数需要耗费大量的时间进行调参工作，容易产生语音失真问题，影响了语音信号的可懂度，破坏了语音信号，甚至还会降低信噪比。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足而提供一种基于改进相位谱补偿和全卷积神经网络的语音增强算法，采用带噪语音的对数功率谱作为训练特征，利用改进的相位谱补偿算法对带噪信号进行相位谱估计，求出的相位谱补偿因子作为网络的训练目标之一，配合独特的损失函数设计，将纯净语音信号的对数功率谱作为共同的训练目标。考虑到训练特征在时间和频率上都具有相关性，本发明采用卷积神经网络以获得更好的训练效果，以此来增强语音信号。

本发明提供一种基于改进相位谱补偿和全卷积神经网络的语音增强算法，包括以下步骤：

步骤1、对训练集语音数据进行预处理，获取带噪语音和纯净语音的特征数据；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111534489.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种工业控制系统、工业控制方法和电子设备
下一篇：一种物理抗菌硅胶奶嘴及其制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于改进相位谱补偿和全卷积神经网络的语音增强算法在审

专利文献下载