[发明专利]一种基于深度学习相位更加友好的语音降噪系统及方法有效

专利信息
申请号: 202011063354.2 申请日: 2020-09-30
公开(公告)号: CN112652321B 公开(公告)日: 2023-05-02
发明(设计)人: 李培硕;欧阳鹏;尹首一 申请(专利权)人: 北京清微智能科技有限公司
主分类号: G10L21/0216 分类号: G10L21/0216;G10L21/0232;G10L25/30
代理公司: 北京索睿邦知识产权代理有限公司 11679 代理人: 李根
地址: 100192 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 相位 更加 友好 语音 系统 方法
【权利要求书】:

1.一种基于深度学习相位更加友好的语音降噪系统,其特征在于,包括:

一个对抗网络,其包括一个生成器和一个判别器;

训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;

所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;

训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;

所述对抗网络能够接收一个真数据对和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;

所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;

在相同的频谱图的幅值的情况下,Griffin-Lim算法无限迭代或时间代价很大的情况下,Griffin-Lim算法能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;

通过ISTFT短时傅里叶变换算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;同一频谱图经过两个算法得到分数的差值,表示相位对语音降噪系统的影响;所述分数的差值越小代表Griffin-Lim算法对相位失配的补偿越多,效果越好;

通过ISTFT短时傅里叶变换算法和Griffin-Lim算法分别获取时域音频;

所述ISTFT短时傅里叶变换算法获取的时域音频在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin-Lim算法获取的时域音频在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述语音降噪系统的降噪效果越好。

2.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络;

所述卷积网络、所述长短时记忆网络和所述第一层全连接神经网络的激活函数为Relu函数,所述第二层全连接神经网络的激活函数为sigmoid函数。

3.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,当迭代次数无限时,最小均方差减小到0;

估计的去噪后的语音幅值谱增强,使x(n)是由增强幅值谱恢复的完美语音波形,x(n)的相位将是增强后频谱幅值对应的相位。

4.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,将时频掩膜和对应的带噪语音时频谱相乘得到去噪后语音时频谱;

将去噪后语音时频谱和带噪语音相位做短时傅里叶反变换,转换为时域语音;将时域语音通过参数固定的鉴别器和生成器的损失函数更新生成器的参数,将生成器的模型前向作为语音增强模型。

5.如权利要求4所述的基于深度学习相位更加友好的语音降噪系统,其特征是,计算带噪语音分别与干净语音和去噪后语音的组合起来的数据,将所得数据分别输入到判别器;计算损失更新判别器的参数,之后固定判别器当前的参数。

6.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,所述生成器前向过程中,将带噪语音相位和去噪后语音的频谱一起做istft生成时域语音;

所述生成器的训练损失函数如下:

其中,λ作为超参,λ是用于在不同的噪声环境或者数据集下的不同约束条件。

7.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,将所述干净语音的数据集作为降噪的目标,获得一组包含各种类型噪声的作为噪声集;

将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音;真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。

8.一种基于深度学习相位更加友好的语音降噪方法,其特征在于,包括:

S101,一个对抗网络,其包括一个生成器和一个判别器;

S102,训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;

所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;

S103,训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;

所述对抗网络能够接收一个真数据对和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;

S104,所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;

S105,Griffin-Lim算法在无限迭代的情况下,能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;

S106,通过ISTFT算法和Griffin-Lim算法比较语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;

ISTFT算法和Griffin-Lim算法的分数差值越小代表,所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好;

通过ISTFT短时傅里叶变换算法和Griffin-Lim算法分别获取时域音频;

所述ISTFT短时傅里叶变换算法获取的时域音频在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin-Lim算法获取的时域音频在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述语音降噪系统的降噪效果越好。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能科技有限公司,未经北京清微智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011063354.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top