[发明专利]面向麦克风阵列的通道注意力加权的语音增强方法在审
申请号: | 202011028613.8 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112151059A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 唐闺臣;孙世若;梁瑞宇;王青云;谢跃;包永强;邹采荣 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L25/30 |
代理公司: | 南京睿之博知识产权代理有限公司 32296 | 代理人: | 刘菊兰 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 麦克风 阵列 通道 注意力 加权 语音 增强 方法 | ||
1.一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,包括以下步骤:
S1:声音采样:通过两个扬声器分别播放纯净语音和噪声,从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;
S2:构建多通道语音增强模型:首先构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型,在基线语音增强模型的基础上结合多通道注意力机制,通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型;
S3:多通道语音增强模型预训练:计算步骤S1中麦克风阵每路带噪语音的短时傅里叶变换频谱,作为多通道语音增强模型的输入特征;计算扬声器中播放的纯净语音的频谱,然后结合每路带噪语音的短时傅里叶变换频谱计算纯净语音的压缩复值理想比率掩模并通过多通道语音增强模型生成每路带噪语音的估计的压缩复值理想比率掩模其中,j为麦克风标号;通过联合优化估计每路麦克风的和的均方误差MSE以及加权信号/失真比损失Weighted-SDR Loss来训练多通道语音增强模型;
S4:采用多通道语音增强模型进行麦克风阵语音增强:将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。
2.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述步骤S2中基线语音增强模型的具体结构为:基线语音增强模型为包括4层编码器和4层解码器的卷积神经网络,每层编码器以及每层解码器之间包含一层通道注意力层,基线语音增强模型输入信号,即麦克风阵中每组语音时域信号,其维度为F×T×2C,其中F为频率维度,T为时间维度,C为通道维度,即麦克风总个数。
3.根据权利要求2所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述每层编码器包含依次连接的卷积层、批归一化层和非线性层,编码器通过下采样扩展通道维度,所述每层编码器输出估计的特征;所述每层解码器包含依次连接的卷积层、批归一化层和非线性层,解码器通过上采样收缩通道维度,生成与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模编码器与解码器之间具有相同的卷积层数,编码器与解码器对应层之间通过跳跃连接将输出与输入在通道维度上进行堆叠。
4.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述步骤S2中构建多通道语音增强模型的具体过程为:
S21、将多通道注意力机制引入基线语音增强模型中:将输入的短时傅里叶变换频谱在频率维度划分为m个子空间,随机初始化若干组1×1卷积核,并与输入的带噪语音x∈RF×T×2C做卷积,得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x),其中,K(x)∈RF×d×2C,Q(x)∈RF×d×2C,V(x)∈RF×T×2C,d是1X1卷积的通道数;
S22、计算注意力权值矩阵:所述键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)均为可训练的矩阵,通过计算查询矩阵Q(x)和键值矩阵K(x)的相似度,来对所有的数值矩阵V(x)进行加权,通过K(x)和Q(x)计算注意力权值矩阵Ai∈RF×2C×2C,并与V(x)相乘,得到通道注意力层的输出;其中,注意力权值矩阵Ai∈RF×2C×2C的计算公式为:
其中,i代表不同的子空间,通道注意力层的输出为缩放点积模型;
S23、通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型:注意力层输出在通道维度上与输入进行级联,则最终输出维度为F×T×4C,计算公式为:
O(K(x),Q(x),V(x))=Concat(A1,...,Am)V(x)
其中,O(K(x),Q(x),V(x))为通道注意力层的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011028613.8/1.html,转载请声明来源钻瓜专利网。