[发明专利]基于卷积循环神经网络的单通道人声与背景声分离方法有效
申请号: | 202011119804.5 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112259120B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 孙超 | 申请(专利权)人: | 南京硅基智能科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/18;G10L25/30;G10L25/45 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 卢华强 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 循环 神经网络 通道 人声 背景 分离 方法 | ||
1.基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,包括步骤:
S1、获取原始混合语音信号,所述原始混合语音信号为单通道的人声、背景声的混合信号;
S2、将获取的原始混合语音信号经过分帧加窗、时频转换,得到原始混合信号幅度谱和原始混合信号相位谱;
S3、将原始混合信号幅度谱输入卷积神经网络,所述卷积神经网络包括依序设置的卷积层和池化层;卷积层获取原始混合信号幅度谱的局部特征,池化层对特征进行降维,转换为低分辨率特征图并输出;所述卷积层包括两层,且两层卷积层中的卷积核大小不同;
S4、将低分辨率特征图和原始混合信号幅度谱输入循环神经网络,结合时频掩模得到人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值;
S5、将人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值分别与原始混合信号相位谱结合,并分别经过逆傅里叶变换得到预测人声信号和预测背景声信号;
所述卷积神经网络和循环神经网络均设有原始混合信号幅度谱通道所述卷积神经网络的卷积层和池化层之间还有注意力层,注意力层通过学习的方式自动获取每个特征通道的重要程度,并依据重要程度提升有用特征通道的权重,降低对当前任务用处不大的特征通道的权重。
2.如权利要求1所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,所述两层卷积层中的卷积核均为矩形长条状的滤波器。
3.如权利要求2所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,第一层卷积层的卷积核尺寸为2×10,第二层卷积层的卷积核尺寸为10×2。
4.如权利要求2所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,在两层卷积层之后均设有批处理归一化层,批处理归一化层使用Leaky-relu激活函数,Leaky-relu激活函数公式如下:
其中为自变量,而是(1,+∞)区间内的固定参数。
5.如权利要求1所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,所述池化层卷积核尺寸为2×1。
6.如权利要求1所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,所述S3中卷积神经网络的输入的谱图大小为10×513,其中513=1024/2+1,采样率为16000Hz。
7.如权利要求1所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,所述注意力层采用最大池化法进行全局池化。
8.如权利要求1所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,所述卷积神经网络和循环神经网络采用均方误差损失函数,如下:
,是人声经过时频掩模后的预测值,是背景声经过时频掩模后的预测值,和分别代表人声和背景声的真实值;
或采用均方误差与源-干扰比结合损失函数,如下:
,其中为超参数,是人声经过时频掩模后的预测值,是背景声经过时频掩模后的预测值,和分别代表人声和背景声的真实值。
9.如权利要求1所述的基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,S4中人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值计算方法如下:
,,
其中定义为元素相乘,是人声经过时频掩模后的预测值,是背景声经过时频掩模后的预测值,为原始混合信号幅度谱,代表卷积循环神经网络预测的人声在时刻t的输出,是卷积循环神经网络的背景声在时刻t的输出,为人声经过时频掩模后的预测值的时频掩模和为背景声经过时频掩模后的预测值的时频掩模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司,未经南京硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011119804.5/1.html,转载请声明来源钻瓜专利网。