[发明专利]一种改进多分辨率残差U型网络的语音增强方法在审
申请号: | 202111026177.5 | 申请日: | 2021-09-02 |
公开(公告)号: | CN113707164A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 兰朝风;刘春东;周贤武;韩玉兰;郭小霞 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L25/27;G10L25/30;G10L25/45;G10L25/69;G10L15/02;G10L15/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 分辨率 网络 语音 增强 方法 | ||
一种深度神经网络,特别涉及一种改进多分辨率残差U型网络语音增强方法,为使得传统的多分辨率残差U型网络更加适用于时频域上的语音增强任务,针对其在解码阶段恢复出低信噪比下的语音细节的能力弱、容易造成语音特征丢失的问题进行改进,同时改变了卷积核的大小以适应语音信号转化到时频域后通常得到的语音特征图的尺寸是宽度远大于高度的特点,属于语音增强领域。本发明包括:S1、将纯净和带噪语音通过短时傅里叶变换得到两种语音信号的幅度谱;S2、以带噪语音幅度谱作为网络的输入,纯净语音幅度谱作为训练目标;通过改进的多分辨率残差U型网络拟合网络输入与训练目标之间的非线性关系,进而得到基于改进的多分辨率残差U型网络的语音增强模型;S3、通过STFT获取带噪语音的幅度谱;将其通过改进的多分辨率残差U型网络模型,即可得到目标语音的幅度谱;S4、将幅度谱与带噪语音相位结合,进行波形重建,重建后即可得到增强语音。
技术领域
本发明涉及一种深度神经网络,特别涉及一种改进多分辨率残差U型网络语音增强方法,属于语音增强领域。
背景技术
单通道语音增强是一种有趣且充满挑战的技术,其主要目的在于提高语音质量,增强语音可懂度,使噪声环境中的目标语音更加清晰。因其较为实际的功能,使得工程上有许多应用,例如,助听器、通讯设备以及鲁棒性语音识别等领域,单通道语音增强都起到了重要作用。
单通道算法可分有监督与无监督的语音增强算法。无监督语音增强算法其重点在于对噪声部分的研究,实现此类语音增强算法大多需要利用先验条件。1978年将维纳滤波法用于语音增强领域,这是由Lim和Oppenheim提出的,需要假设噪声是平稳的,根据估计带噪语音和噪音的功率谱来构造以最小均方误差为条件的传递函数。但是这种方法滤除噪声效果不理想。1979年Boll等人提出谱减法,假定噪声是平稳的加性噪声,与语音信号不相关,首先采用语音端点检测找到语音信号中噪声段;其次在噪声段估计其功率谱;最后将估计的功率谱被带噪语音的减掉得到纯净语音功率谱。谱减法之所以被称为最经典的语音增强算法,是因为它不仅计算过程简单而且可以有效的处理宽带噪声,但是其假设的条件过于简单,在估计后会引入“音乐噪声”。基于统计模型的语音增强算法假设的前提是,噪声是以高斯分布。例如,1984年Ephraim和Malah提出短时谱幅度最小均方误差估计(MinimumMean Square Error Short Time Spectral Amplitude,MMSE-STSA),1985年提出的短时对数谱最小均方误差估计。与维纳滤波法相同,当MMSE同样不能正确地估计先验信噪比,会降低滤除背景噪声的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111026177.5/2.html,转载请声明来源钻瓜专利网。