[发明专利]联合波束形成和深度复数U-Net网络的语音去混响方法有效
申请号: | 202110403500.X | 申请日: | 2021-04-15 |
公开(公告)号: | CN113129918B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 潘翔;朱训谕 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联合 波束 形成 深度 复数 net 网络 语音 混响 方法 | ||
1.一种联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,包含以下步骤:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf;
(2)对随机一个麦克风信号进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;
(3)将步骤(2)拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin;
(4)基于深度复数U-Net网络和输入特征Xin预测复数值比率掩膜,通过复数值比率掩膜与Ymic相乘得到期望语音信号的频谱
(5)利用短时傅里叶逆变换处理网络的输出得到期望语音信号的时域表示
2.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(1)具体实现如下:
记MVDR波束形成器的权向量的公式如下:
其中表示麦克风接收信号的协方差矩阵,表示麦克风q对应的房间冲激响应,(·)H表示转置操作,f表示频点;
获得波束形成后的输出信号Ybf,公式如下:
其中X(t,f)为麦克风接收信号的频域表示,t表示时间帧。
3.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(2)具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f);
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin:
Yin=[Ybf,Ymic]。
4.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(3)具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin。
5.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(4)中,所述深度复数U-Net网络由一个编码器、一个解码器和镜像连接构成,输入特征为Xin;
所述编码器由五个复数卷积层构成,解码器由五个复数反卷积层和一个全连接层构成;所述解码器和编码器的镜像卷积层之间采取特征图维度的连接;
所述复数卷积层的输出使用复数批量归一化进行处理;复数批量归一化的输出使用复数非线性整流单元进行非线性激活;最后使用双曲正切函数(tanh)对网络输出进行非线性激活,得到估计的复数值比率掩膜
获得估计的期望语音信号的频谱公式如下:
其中⊙表示矩阵点乘。
6.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(5)中,利用短时傅里叶逆变换处理网络的输出多帧信号进行拼接得到期望语音信号的时域表示实现语音去混响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403500.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中医护理用灸疗固定装置
- 下一篇:一种车间废油布压紧成型装置