[发明专利]一种基于深度神经网络的语音增强方法在审
申请号: | 201811653295.7 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109658949A | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 李湑;李秋俊;陈毅;彭鑫;黄胜 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/02;G10L25/30;G10L25/03 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音信号 语音增强 映射 纯净语音信号 神经网络 语音 神经网络模型 对数功率谱 噪声鲁棒性 动态噪声 感知训练 几何关系 时域表示 相位信息 映射关系 噪声信号 频谱 失真 相加 恢复 联合 学习 | ||
1.一种基于深度神经网络的语音增强方法,其特征在于,包括以下步骤:
步骤101:搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络;
步骤102:利用几何关系求解增强语音信号的相位信息;
步骤103:利用重叠相加原理恢复得到增强语音信号。
2.根据权利要求1所述的一种基于深度神经网络的语音增强方法,其特征在于,所述步骤101搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络,获取增强语音信号的对数功率谱特征,解决目标问题包括:传统基于特征映射的DNN深度神经网络模型在语音增强任务中,采用的特征往往是带噪语音信号的特征或者再附加噪声信号的估计特征,因此包含的信息也就相对较少,模型的噪声鲁棒性差,而噪声估计的不准确性还会进一步导致恢复得到的增强语音信号存在频谱失真的问题,这严重的影响了语音的质量和可懂度;
针对此缺陷,提出了一种基于动态噪声和语音联合感知训练的模型训练方法,求取带噪语音信号中心帧(即当前帧)的语音对数域幅度谱特征估计值和噪声对数域幅度谱特征估计值,然后将二者与带噪语音信号中心帧及其扩展的前后各τ帧的对数功率谱特征进行融合,作为深度神经网络模型训练的输入特征向量,使模型能够更好的学习带噪语音信号、纯净语音信号和噪声信号三者之间的非线性关系,实现更精确的特征映射;
采用基于DNAT-DSAT-DNN特征映射深度神经网络模型解码得到增强语音的对数功率谱特征,主要分为以下三个步骤:
①数据集:提供训练数据集、测试数据集;
②模型搭建和训练:搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络模型;
③对于测试带噪语音信号进行模型解码,获得增强语音对数功率谱特征;具体如下:
首先收集并整理数据集,提供模型训练所需要的带噪语音信号和纯净语音信号数据集对,搭建基于DNAT-DSAT-DNN的特征映射网络模型,接着对带噪语音进行加窗分帧的预处理,通过短时离散傅里叶变换求取带噪语音信号每一帧的对数功率谱特征和相位信息,然后对带噪语音信号的中心帧(即当前帧)进行前、后各τ帧扩展,得到该帧包含上、下文信息的特征向量:
vt=[yt-τ,...,yt-1,yt,yt+1,...,yt+τ]
接着利用改进最小控制迭代平均(IMCRA)方法实时动态跟踪每一帧带噪语音信号,求取每一帧带噪语音信号的噪声对数域幅度谱特征值的估计利用对数谱域的最小均方误差(Log-MMSE)方法求取带噪语音信号每一帧语音对数域幅度谱特征值的估计再进一步将二者与其所对应帧包含上、下文信息的特征向量进行融合,得到模型的输入向量:
该特征向量相较于传统的基于特征映射DNN语音增强方法的特征向量,给予了神经网络模型训练噪声环境和语音环境的双重提示,使模型能够训练学习到更多的信息,从而更好的学习带噪语音和纯净语音之间的映射关系,实现更精确的映射;然后对测试的带噪语音信号进行模型解码,就可以得到增强语音信号的对数功率谱特征估计值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811653295.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向候鸟迁徙活动的声学监测方法
- 下一篇:一种混合频域自适应算法