[发明专利]一种训练生成对抗网络、语音增强方法及系统有效
申请号: | 201911312488.0 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111081266B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 刘刚;龚科 | 申请(专利权)人: | 暗物智能科技(广州)有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李红团 |
地址: | 511400 广东省广州市南沙区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 生成 对抗 网络 语音 增强 方法 系统 | ||
1.一种训练生成对抗网络方法,其特征在于,包括如下步骤:
获取带噪声的语音y以及其对应纯净语音x构成训练集;
将噪声的语音y输入到生成器生成去噪后的语音
在纯净语音x、带噪声的语音y和生成器去噪后的语音分别在同样的位置截取以及截取同样的大小的k个子语音;
将生成器去噪后语音的子语音和带噪声语音的子语音组成的语音对以及带噪声语音的子语音和对应纯净语音的子语音组成的语音对(xi,yi)分别输入局部判别器,将带噪声的语音和对应纯净语音组成的语音对(x,y)以及生成器去噪后的语音和带噪声语音组成的语音对输入全局判别器,分别对判别器和生成器进行训练,根据预设训练结束条件得到训练好的生成对抗网络;表示去噪后语音的第i个子语音,yi表示带噪声语音的第i个子语音,xi表示纯净语音的第i个子语音;
其中,对生成器进行训练的过程,包括:
将生成器去噪后语音的子语音和带噪声语音的子语音组成的语音对以及带噪声语音的子语音和对应纯净语音的子语音组成的语音对(xi,yi)分别输入局部判别器,得到生成器去噪后的语音的子语音为真的相对概率
将带噪声的语音和对应纯净语音组成的语音对(x,y)以及生成器去噪后的语音和带噪声语音组成的语音对输入全局判别器,得生成器去噪后的语音为真的相对概率
固定判别器参数并计算生成损失以更新生成器的参数;
所述生成损失通过以下公式计算:
G_loss=localDG_Loss+globalDG_Loss+L_Loss,
其中,globalDG_Loss为判别器的全局对抗损失,localDG_Loss为判别器的局部对抗损失,L_Loss为生成器生成增强的语音与纯净语音的L1距离损失。
2.根据权利要求1所述的训练生成对抗网络方法,其特征在于,对判别器进行训练的过程,包括:
将生成器去噪后语音的子语音和带噪声语音的子语音组成的语音对以及带噪声语音的子语音和对应纯净语音的子语音组成的语音对(xi,yi)分别输入局部判别器,得到带噪声的语音对应纯净语音的子语音为真的相对概率p(xi,yi);
将带噪声的语音和对应纯净语音组成的语音对(x,y)以及生成器去噪后的语音和带噪声语音组成的语音对输入全局判别器,得到带噪声的语音对应纯净语音为真的相对概率p(x,y);
固定生成器的参数并计算判别损失以更新判别器的参数。
3.根据权利要求2所述的训练生成对抗网络方法,其特征在于,所述判别损失通过以下公式计算:
D_loss=localD_Loss+globalD_Loss,
localD_Loss=-log(min(p(xi,yi))),
globalD_Loss=-log(p(x,y));
其中,globalD_Loss为全局判别损失,localD_Loss为局部判别损失,min(p(xi,yi)为k个带噪声的语音对应纯净语音的子语音为真的相对概率中最小值。
4.一种语音增强方法,其特征在于,包括:
获取待增强带噪声的语音;
将待增强带噪声的语音输入如权利要求1-3任一项所述的训练生成对抗网络方法得到的生成对抗网络中的生成器对语音进行增强,生成纯净的语音。
5.根据权利要求4所述的语音增强方法,其特征在于,所述生成器以特征金字塔网络作为主干网络获取不同尺度的语音特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暗物智能科技(广州)有限公司,未经暗物智能科技(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911312488.0/1.html,转载请声明来源钻瓜专利网。