[发明专利]一种基于RefineNet的端到端语音增强方法有效
申请号: | 201910549850.X | 申请日: | 2019-06-24 |
公开(公告)号: | CN110246510B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 蓝天;彭川;李森;刘峤;钱宇欣;叶文政;李萌;惠国强;吕忆蓝 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L21/0224;G10L21/0232;G10L25/27 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 refinenet 端到端 语音 增强 方法 | ||
本发明公开了一种基于RefineNet的端到端语音增强方法,首先构建一个时频分析网络对语音信号编码分析,然后利用RefineNet网络学习含噪语音到纯净语音的特征映射,最后解码生成增强的语音信号。在此基础上,我们提出将评价指标与训练损失函数相融合的改进方法以及将STOI与SDR同时作为优化目标的多目标融合学习策略。在不同噪声环境和不同信噪比下的测试中,本发明提出的方法在STOI、PESQ以及SDR方面的指标显著优于具有代表性的传统方法、非端到端和端到端的深度学习方法,能更好地提高语音的清晰度和可懂度;得到更好的语音增强效果。
技术领域
本发明属于语音信号处理技术领域,具体设计一种基于RefineNet的端到端语音增强方法。
背景技术
语音信号增强的主要目标是从带噪语音中提取原始语音信号,通过抑制或分离噪声来提升语音感知质量与可懂度,在语音信号通信、安全监听、助听器和自动语音识别等领域有着广泛的应用。进过几十年的发展,众多语音增强算法相继被提出,经典的语音增强技术主要包括谱减法、维纳滤波法、基于统计模型的方法等,这些方法往往基于噪声平稳的假设,在高度非平稳的噪声情况下增强效果会急剧恶化。
深度学习的兴起以及在图像分类、语音识别以及自然语音处理等领域的成功应用,为解决复杂环境下的语音增强提供了思路,神经网络模型开始被广泛应用到了语音增强任务中。根据网络学习的目标不同,基于神经网络的语音增强主要分为基于时频掩蔽、基于特征映射的方法以及两者结合的信号近似方法。基于时频掩蔽的方法将纯净语音与噪声之间的相互关系作为学习目标,将得到的时频掩蔽估计作用于带噪语音上,并经由逆变换技术合成增强语音的时域波形;基于特征映射的方法利用神经网络学习带噪语音和纯净语音之间的复杂映射关系。这两类方法通常需要将时域波形变换到时频域处理信号的幅度谱或功率谱,往往会忽略掉语音信号中的相位信息。
发明内容
针对现有技术中的上述不足,本发明提供的基于RefineNet的端到端的语音增强方法解决了现有的语音增强方法会会忽略掉相位信息,增强语音清晰度和可懂度不足的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于RefineNet的端到端语音增强方法,包括以下步骤:
S1、通过TFANet时频分析网络将原始带噪语音信号变换成含有时频信息的特征图,并输入到RefineNet网络中;
S2、通过RefineNet网络对特征图进行分析,确定原始带噪语音信号到纯净语音信号的特征映射对应的特征图;
S3、根据特征图,通过TFANet时频分析网络重构出增强后的语音信号,实现语音增强。
进一步地,所述TFANet时频分析网络包括STFT卷积层、取特征图层、解卷积层和语音信号重构层;
所述STFT卷积层的输出端与取特征图层连接,所述取特征图层的输出端分别与RefineNet网络的输入端和解卷积层的输出端连接;
所述解卷积层的输入端与RefineNet网络的输出端连接,所述解卷积层的输出端与语音信号重构层连接。
进一步地,所述步骤S1具体为:
S11、通过STFT卷积层对原始带噪语音信号进行短时傅里叶变换,得到原始带噪语音信号的时域信息;
其中,短时傅里叶变换的公式为:
式中,xt[f]为原始语音信号在第t帧第f频点的STFT结果;
N为每帧的采样点个数;
H为相邻帧间的位移;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910549850.X/2.html,转载请声明来源钻瓜专利网。