[发明专利]联合波束形成和深度复数U-Net网络的语音去混响方法有效

申请号：	202110403500.X	申请日：	2021-04-15
公开（公告）号：	CN113129918B	公开（公告）日：	2022-05-03
发明（设计）人：	潘翔;朱训谕	申请（专利权）人：	浙江大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0216;G10L25/30
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	联合波束形成深度复数 net 网络语音混响方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种联合波束形成和深度复数U‑Net网络的语音去混响方法。该方法包括：使用最小方差无失真响应(Minimum variance distortionless response,MVDR)波束形成器对混响语音进行预处理，抑制非目标语音方向干扰并提高信噪比；使用深度复数U‑Net网络预测期望语音的幅度和相位谱；通过短时傅里叶逆变换恢复时域的期望语音信号。本发明可用于解决会议室、教室、客厅等常见室内环境的语音去混响问题，增强智能交互设备接收到的语音信号，提高语音识别和语音唤醒的准确率。

技术领域

本发明涉及语音去混响方法，尤其涉及一种联合波束形成和深度复数U-Net网络的语音去混响方法。

背景技术

语音是人类最重要、最常用的交换信息的形式之一。近年来，随着计算机科学和模式识别技术的发展，语音成为人机交互的重要手段。由于房间墙壁和其他物体的反射，麦克风在封闭环境中接收到的信号是直达波和混响的叠加。混响会破坏语音的包络和谐波等结构，导致语音质量和清晰度下降。在存在混响的情况下，自动语音识别系统的性能可能会大大降低。因此，从复杂的声学环境中提取较为纯净的目标说话人语音，发展更为稳定高效的语音交互方式显得更为迫切。

由于混响和语音之间的高度相关性，混响是增强语音的一项艰巨任务。目前，混响方法可以分为两类：混响消除和混响抑制。前者与诸如声学脉冲响应的先验数据有关，如波束成形；而后者不需要上述先验数据，如多通道线性预测和深度学习方法。多麦克风波束形成接后置滤波是最传统的去混响方法。多通道线性预测方法在声学脉冲响应等未知的情况下可以实现有效的语音去混响，但是缺陷在于计算速度缓慢，不满足实时应用的需求。波束形成方法和通道线性预测方法共有的缺点在于在低信噪比条件下，去混响的效果会大幅度下降。近年来，得益于深度学习方法的成功，语音去混响方法实现了巨大的进步。基于深度神经网络、卷积神经网络的深度学习方法在语音去混响任务上取得了突破。而如何精简模型使其满足实时应用的需求，如何更加有效的实现去混响成为了最新的问题。

发明内容

本发明针对语音去混响问题中现有深度学习方法的不足，提出一种联合波束形成和深度复数U-Net网络的语音去混响方法，联合波束形成和深度复数U-Net网络实现更高性能的去混响。

本发明的目的是通过以下技术方案来实现的：一种联合波束形成和深度复数U-Net网络的语音去混响方法，该方法包含以下步骤：

(1)使用MVDR波束形成器，对麦克风阵采集的多通道语音进行预处理，得到波束形成输出Y_bf；

(2)对随机一个麦克风信号进行短时傅里叶变换，得到输出Y_mic，并与波束形成输出Y_bf进行拼接；

(3)将步骤2拼接得到的语音频谱特征进行归一化处理，之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取，实现频带注意力机制，得到输出特征X_in；

(4)基于深度复数U-Net网络和输入特征X_in预测复数值比率掩膜(Complex-valuedRatio Mask,cRM)，通过复数值比率掩膜与Y_mic相乘得到期望语音信号的频谱

(5)利用短时傅里叶逆变换处理网络的输出得到期望语音信号的时域表示

进一步地，所述步骤(1)具体实现如下：

记MVDR波束形成器的权向量的公式如下：

其中表示麦克风接收信号的协方差矩阵，表示麦克风q对应的房间冲激响应，(·)^H表示转置操作，f表示频点；

获得波束形成后的输出信号Y_bf，公式如下：