[发明专利]一种基于声纹比对和生成对抗网络的语音增强方法有效
申请号: | 201811353760.5 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109326302B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 钟艳如;张家豪;赵帅杰;李芳;蓝如师;罗笑南 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0264;G10L17/00 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 生成 对抗 网络 语音 增强 方法 | ||
1.一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,包括如下步骤:
1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;
2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;
3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话者的声音,得到预测干净音频;
4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;
5)调整鉴别器权重参数,使鉴别器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;
6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。
2.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的声纹识别编码器为2000 NISI Speaker Recongnition Evaluation语音库的声纹识别编码器;所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统;所述的语音分离系统为TIMIT语音库的语音分离系统。
3.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,步骤2)中,所述的声纹识别编码器提取目标说话人的声纹特征,具体是:将音频信号转换为宽度为25ms和步长为10ms的帧,经过mel滤波器对每帧进行滤波,并且从结果中提取尺寸为40的能量谱作为网络输入,在这些帧上构建固定长度的滑动窗口,并在每个窗口上运行长短期记忆网络,然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征d-vector表示。
4.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的生成器,是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,输入信号的语谱图经过卷积层后,参考音频的声纹特征d-vector会被逐帧拼接到卷积层的输出上,一同输入长短期记忆层,最终,网络的输出是一段与输入语谱图维度相同的掩码mask,将输出掩码与输入语谱图相乘,即可得到输出音频的预测干净音频谱图
5.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的鉴别器,是由一个2层的卷积网络和一个2层的全连接神经网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,生成器将生成的预测干净音频谱图送入鉴别器,再将步骤1)中真实干净音频X送入鉴别器,训练鉴别器神经网络,鉴别器对生成器产生的预测干净音频谱图判定为虚假数据给予低分,对步骤1)中真实干净音频X判定为真实数据给予高分,以此学习真实数据和预测数据的分布,使鉴别器分辨出步骤6)中说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布。
6.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的调整鉴别器权重参数,具体是将真实虚假的消息传递给生成器,生成器调整网络模型的参数,修正其输出的语谱图,使其更接近于真实的分布,消除被鉴别器判定为虚假的噪音信号,即使生成器产生的预测干净语谱图可以“骗过”鉴别器,鉴别器判定生成器产生的预测干净语谱图是从TIMIT语音库中得到的真实干净音频的语谱图X,在神经网络反向传播的过程中,鉴别器能够更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,也就是更好地找到真实干净音频的特征;同样的,生成器也会随着不断更新的鉴别器,调整其参数,使其产生的预测语谱图向着真实干净音频语谱图移动。
7.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的生成器、鉴别器,相互博弈,相互对抗,生成对抗网络算法,算法公式如下:
为解决经典方法面临梯度消失的问题,采用最小二乘生成对抗网络the least-squares GAN代替交叉熵损失the cross-entropy loss,则:
上述公式中,G表示生成器Generator,D表示鉴别器Discriminator,V代表损失值,data表示步骤1)语音分离系统中真实干净音频的语音库,x表示data中抽取出的真实干净语音音频,noise表示步骤1)语音分离系统中的带噪音频语音库,n表示从noise中抽取与x对应的带噪音频,G(n)表示生成器对带噪语音进行去噪处理,得到预测干净音频D(G(n))表示鉴别器对预测干净音频进行判定为虚假数给予低分,对真实干净音频X判定为真实数据给予高分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811353760.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种进行信号处理的方法及设备
- 下一篇:一种语音分离方法及系统