[发明专利]语音增强模型的训练方法及装置、语音增强方法及装置有效

申请号：	202110774752.3	申请日：	2021-07-09
公开（公告）号：	CN113241088B	公开（公告）日：	2021-10-22
发明（设计）人：	任新蕾;张旭;郑羲光;陈联武;张晨	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L25/30
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	苏银虹;王兆赓
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音增强模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括复数掩码网络和波束形成模块，所述训练方法包括：

获取训练样本集，其中，所述训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，所述多通道含噪语音信号是所述对应的多通道干净语音信号添加噪声和混响后的语音信号；

将多通道含噪语音信号的复数谱输入到所述复数掩码网络，得到每个通道的复数掩码，其中，所述复数掩码表示的是含噪语音信号中干净语音信号的占比；

基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；

将每个通道的增强复数谱输入到所述波束形成模块，得到单通道的预估增强复数谱；

基于所述预估增强复数谱对应的预估时域信号和所述多通道干净语音信号中预定通道的干净语音信号，确定所述语音增强模型的目标损失函数；

根据所述目标损失函数调整所述复数掩码网络的参数，对所述语音增强模型进行训练；

其中，所述基于所述预估增强复数谱对应的预估时域信号和所述多通道干净语音信号中预定通道的干净语音信号，确定所述语音增强模型的目标损失函数，包括：基于所述多通道干净语音信号中预定通道的干净语音信号和所述预定通道的含噪语音信号，获取真实噪声信号；基于所述预估时域信号和所述预定通道的含噪语音信号，获取预估噪声信号；基于所述预估时域信号和所述预定通道的干净语音信号的差值的绝对值、所述预估噪声信号和所述真实噪声信号的差值的绝对值，确定所述语音增强模型的目标损失函数。

2.如权利要求1所述的训练方法，其特征在于，所述预定通道为多通道对应的麦克风阵列中位置居中的通道。

3.如权利要求1或2所述的训练方法，其特征在于，所述复数掩码网络包括因果U-NET网络。

4.一种语音增强方法，其特征在于，包括：

获取待处理的多通道含噪语音信号；

将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码；

基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；

将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱；

获取所述增强复数谱对应的时域信号，并将所述时域信号作为所述多通道含噪语音信号的增强语音信号；

其中，所述语音增强模型是通过如权利要求1至3中任一项所述的训练方法训练得到的。

5.如权利要求4所述的语音增强方法，其特征在于，所述获取所述增强复数谱对应的时域信号，包括：

将所述增强复数谱进行滤波处理；

基于滤波处理后的增强复数谱得到对应的时域信号。