[发明专利]基于生成对抗网络的复数域语音增强方法、系统及介质有效
申请号: | 201910984076.5 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110739002B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 刘刚;陈志广 | 申请(专利权)人: | 中山大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/30 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 复数 语音 增强 方法 系统 介质 | ||
1.一种基于生成对抗网络的复数域语音增强方法,其特征在于实施步骤包括:
1)获取带噪声的语音;
2)将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I;
3)将带噪声的实数谱R和虚数谱I输入预先完成训练的生成对抗网络的生成器,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR;高语义特征EncoderIR经过生成器的自注意力机制层self-attention输出具有全局信息的特征SIR;通过生成器的解码器Decoder将特征SIR解码得到增强后纯净语音的实数谱和虚数谱IR′;
4)将增强后纯净语音的实数谱和虚数谱IR′基于逆傅里叶变换生成干净的语音;
所述生成对抗网络的生成器为由编码器Encoder、用于提取时序特征的长短时记忆网络LSTM、用于获取全局信息的自注意力机制层self-attention和解码器Decoder构成的U型网络,所述编码器Encoder包括依次相连的用于提取局部和空间上的特征的特征提取主干网络,所述长短时记忆网络LSTM将特征提取主干网络输出的特征图提取时序特征并输出至自注意力机制层self-attention,所述自注意力机制层self-attention输出具有全局信息的特征至解码器Decoder,所述解码器Decoder由多层反卷积网络层构成;
步骤3)之前还包括训练生成对抗网络的步骤,详细步骤包括:
S1)获取带噪声的语音样本,并将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I构成训练集;
S2)从训练集中选取一个语音样本的实数谱R和虚数谱I,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR;
S3)高语义特征EncoderIR经过自注意力机制层self-attention输出具有全局信息的特征SIR;
S4)通过解码器Decoder将特征SIR解码得到增强后语音的实数谱和虚数谱IR′;
S5)将纯净语音的实数谱虚数谱IRC和IR′分别划分由大到小的指定的三个粒度的实数谱和虚数谱:和IR′0,和IR′1,和IR′2;
S6)通过多粒度的判别器D0,D1,D2将每个粒度的判定为真,IR′i为假,其中i=0,1,2;
S7)计算总的损失函数的值,依据反向传播跟新模型所有需要训练的参数;
S8)判断是否满足预设的结束训练条件,如果满足预设的结束训练条件则判定训练结束并退出;否则,跳转执行步骤S2)继续进行训练。
2.根据权利要求1所述的基于生成对抗网络的复数域语音增强方法,其特征在于,所述特征提取主干网络为采用稠密连接网络DenseNet,所述稠密连接网络DenseNet由多个稠密块及其对应的下采样模块组成,多个稠密块依次串行连接且每一个稠密块对应的下采样模块位于稠密块的输出端,每一个稠密块包含多个卷积操作且激活函数采用修正线性单元ReLU,每个卷积操作把之前所有得到的特征图拼接起来作为其输入,且当前稠密块的第l层的输出为Xl,第l-1,l-2层,第0层的输出Xl-1,Xl-2,...,X0满足:Xl=Hl([Xl-1,Xl-2,...,X0]),其中Hl表示第l层的卷积操作,[·]表示拼接操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910984076.5/1.html,转载请声明来源钻瓜专利网。