[发明专利]一种基于深度复卷积网络的单通道语音增强方法在审

申请号：	202210142181.6	申请日：	2022-02-16
公开（公告）号：	CN114360567A	公开（公告）日：	2022-04-15
发明（设计）人：	魏阳杰;袁艺;张克	申请（专利权）人：	东北大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0232;G10L21/0264;G10L25/30
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	李在川
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度卷积网络通道语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于深度复卷积网络的单通道语音增强方法，方法首先构造带噪语音，计算带噪语音复数域上的频谱特征，并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签，构造训练集；然后构建深层复卷积网络模型，并通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值，构造加权源失真比损失函数；接着将训练集中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对模型进行训练；最后利用训练好的深度复卷积网络模型对带噪语音信号进行降噪处理。本发明通过深度复卷积网络训练低信噪比场景下单麦克风语音信号的复掩膜特征，增加估计语音的信噪比，提升单通道语音增强方法的语音质量和可懂度。

技术领域

本发明涉及语音信号增强技术领域，尤其涉及一种基于深度复卷积网络的单通道语音增强方法。

背景技术

语音是日常生活中人际交往最重要的媒介，但是，实际环境中背景噪声和其他语音的干扰严重影响语音质量和可懂度。语音增强是一种常用的抑制噪声、分离纯净语音的技术，尤其是以低信噪比为应用背景的单通道语音增强近年来受到广泛关注。

目前的单通道语音增强方法包括：传统的语音增强和有监督的语音增强。传统的单通道语音增强方法可以细分为：谱减法、维纳滤波法和基于统计模型的方法等。但是，这些方法大多建立在准确估计噪声谱信号的基础上，因此，增强效果与噪声估计的准确性紧密相关，容易引入额外的音乐噪声或者出现语音失真问题。尽管有学者提出了基于自适应滤波的单通道语音增强方法，但是该方法的前提条件是预先已知噪声或者纯净语音信号。但是在大多数实际环境下，噪声或者纯净语音等先验知识是无法获得的，因此大大限制了自适应滤波方法的应用。此外，近年来基于子空间的增强方法也备受关注，但运算量大，应用并不广泛。

有监督的语音增强指的是利用神经网络的非线性映射能力，学习带噪语音到纯净语音的映射关系，目前较新的一种方法是CRN，即：采用二维CNN提升噪声与语音的特征提取效果。但是，当前的基于监督学习的语音增强技术只对语谱中的幅度谱估计，不考虑相位谱的增强，因此，在低信噪比条件下，模型的性能有限。尽管最近许多方法都提出了相位重构的理论，但是它们所使用的网络结构仍然是语谱中的实值，无法进一步提高单通道的语音增强算法的性能。

发明内容

针对上述现有技术的不足，本发明提供一种基于深度复卷积网络的单通道语音增强方法

为解决上述技术问题，本发明所采取的技术方案是：一种基于深度复卷积网络的单通道语音增强方法，包括如下步骤：

步骤1：构造带噪语音，计算带噪语音复数域上的频谱特征，并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签，将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集，具体过程如下：

步骤1.1：将纯净语音信号x(t)和噪声信号n(t)合并，得到带噪语音信号y(t)：

y(t)＝x(t)+n(t) (1)

步骤1.2：将公式(1)的带噪语音通过短时傅里叶变换得到频谱：

Y(t,f)＝X(t,f)+N(t,f) (2)

其中X(t，f)、N(t，f)、Y(t，f)分别表示纯净语音信号频谱、噪声信号频谱和带噪语音信号频谱；

步骤1.3：将带噪语音信号频谱Y(t，f)用实部Y_r(t，f)和虚部Y_i(t，f)具体表示：

Y(t,f)＝Y_r(t,f)+Y_i(t,f) (3)

步骤1.4：计算掩膜特征CRM作为网络训练使用的标签，具体如下：