[发明专利]一种基于深度神经网络的音频降噪方法在审
申请号: | 201810101400.X | 申请日: | 2018-02-01 |
公开(公告)号: | CN108335702A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 余春艳;齐子铭;管发乾;张栋 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L25/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对数功率谱 相位信息 音色转换 降噪 神经网络 训练阶段 音频降噪 歌声 人耳 测试阶段 听觉感知 听觉系统 训练数据 音频提取 输出 频域 语音 测试 敏感 重建 | ||
本发明涉及一种基于深度神经网络的音频降噪方法。该方法为训练和测试两个阶段;在训练阶段,DNN模型的训练数据是由带噪和纯净音频组成的,由于对数频域更符合人耳的听觉系统,因此对输入的音频提取对数功率谱作为特征;在测试阶段,把音色转换后的歌声的对数功率谱输入到从训练阶段得到的DNN模型中,模型的输出就是降噪后音频的对数功率谱,由于人耳的听觉感知对音频的相位信息并不敏感,所以相位信息直接从原始音色转换后的歌声中计算得到,最后结合DNN模型输出的对数功率谱以及相位信息,重建出降噪后的音频。本发明方法能够对音频特别是音色转换后语音和歌声音频的降噪。
技术领域
本发明涉及歌唱领域的音频降噪方法,特别是一种基于深度神经网络的音频降噪方法。
背景技术
现实生活中的语音音频信号或是歌声音频信号,往往都不是纯净的,都伴有各种各样的噪声。而音频降噪的目的就是尽可能的去除音频信号中的噪声,使音色转换后的歌声更纯净,从而改善音频的质量,提高它的清晰度以及可懂度。
传统的音频降噪方法主要有基于统计模型的贝叶斯估计法、子空间算法、谱减法等。这些算法都对噪声的特性有很强的假设,其中,谱减法的计算复杂度最低,只需要进行正反傅里叶变换,然而当音频信号的信噪比比较低时,谱减法对音频的可懂度损伤很大。
传统的无监督降噪算法大多数都是基于背景噪声的加性特征或是音频和噪声之间的某种统计特性而提出并实现的,这导致了这些算法的适用范围很小。从噪声干扰的复杂性出发,考虑利用深度神经网络这种非线性模型对带噪音频和纯净音频间的映射关系进行建模,并实现对音色转换后音频的降噪。
因此,本专利基于上述分析,利用深度神经网络训练出泛化能力更强的音频降噪模型,完成对音频的降噪。
发明内容
本发明的目的在于提供一种基于深度神经网络的音频降噪方法,能够对音频特别是音色转换后语音和歌声音频的降噪。
为实现上述目的,本发明的技术方案是:一种基于深度神经网络的音频降噪方法,包括如下步骤:
步骤S1:对数据进行预处理,得到带噪音频数据;
步骤S2:训练DNN音频降噪模型,得到的DNN音频降噪模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射;
步骤S3:对音色转换后的歌声进行降噪,即结合步骤S2中训练好的DNN音频降噪模型、输出的对数功率谱以及相位信息,重建出降噪后的音频。
在本发明一实施例中,所述步骤S1的具体实现方式为:采用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同信噪比等级及不同种类的多种噪声,以此生成带噪音频数据。
在本发明一实施例中,所述信噪比等级包括20dB、15dB、10dB。
在本发明一实施例中,所述噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition。
在本发明一实施例中,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,采用无监督的、逐层贪婪的训练方法,并用CD算法来更新RBM的参数;
步骤S22:用随机梯度下降算法训练整体的DNN音频降噪模型;DNN音频降噪模型中RBM部分的参数采用步骤S21训练得到的参数进行初始化,DNN音频降噪模型输出层的参数进行随机初始化;DNN音频降噪模型的损失函数为纯净音频的对数功率谱与DNN音频降噪模型输出的降噪后的对数功率谱之间的最小均方误差,计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810101400.X/2.html,转载请声明来源钻瓜专利网。