[发明专利]一种端到端的骨气导语音联合增强方法有效
申请号: | 202011612056.4 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112786064B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 王谋;张晓雷;王逸平 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0272;G10L25/30 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 骨气 导语 联合 增强 方法 | ||
1.一种端到端的骨气导语音联合增强方法,其特征在于,包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中为带噪声的气导语音,na为环境噪声;构建数据集再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,·代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
2.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
3.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
4.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
5.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述掩膜估计器M包括8个串行堆叠的卷积块。
6.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
7.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011612056.4/1.html,转载请声明来源钻瓜专利网。