[发明专利]基于改进相位谱补偿和全卷积神经网络的语音增强算法在审
申请号: | 202111534489.7 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114242099A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 邓立新;徐琦 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0232;G10L25/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 杜春秋 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 相位 补偿 卷积 神经网络 语音 增强 算法 | ||
1.一种基于改进相位谱补偿和全卷积神经网络的语音增强算法,其特征在于,包括以下步骤:
步骤1、对训练集语音数据进行预处理,获取带噪语音和纯净语音的特征数据;
步骤2、结合带噪语音和纯净语音的特征数据,引入帧信噪比优化相位补偿算法的补偿因子计算公式,再利用改进后的公式进行相位补偿因子的计算;
步骤3、搭建全卷积神经网络模型,相位补偿因子联合纯净语音的对数功率谱作为全卷积神经网络的训练目标,进行全卷积神经网络模型的训练;
步骤4、将测试语音输入训练好的模型,得到对数功率谱的估计值和相位补偿函数;
步骤5、利用对数功率谱的估计值和相位补偿函数分别进行语音信号的幅度谱和相位谱重建,得到最终的增强语音。
2.根据权利要求1所述基于改进相位谱补偿和全卷积神经网络的语音增强算法,其特征在于,所述步骤1中,对带噪语音和纯净语音进行预处理并提取带噪语音和纯净语音的特征参数,具体操作如下:
步骤1-1、令y(n)来表示带噪语音信号且y(n)=d(n)+x(n),其中,d(n)为噪声信号,x(n)为纯净信号;通过对y(n)的M个样本加窗w(n),并进行M点的FFT,将带噪语音变换到频域,得到带噪语音的频谱Y(l,k),其中l为帧数标记,k表示频率分量且k=0,1,2,...,M-1;同样的可得到纯净语音x(n)的频谱X(l,k)和噪声信号d(n)的频谱D(l,k);
步骤1-2、将带噪语音的频谱Y(l,k)表示在极坐标上,可以分为幅度谱和相位谱,即
Y(l,k)=|Y(l,k)|ej∠Y(l,k)
其中,|Y(l,k)|为带噪语音y(n)的短时幅度谱,∠Y(l,k)为相位谱;同样的可以得到纯净语音x(n)的短时幅度谱|X(l,k)|和噪声信号d(n)的短时幅度谱|D(l,k)|;
步骤1-3、利用下式计算带噪语音的对数功率谱S(n)和纯净语音的对数功率谱T(n),
S(n)=[loge(|Y(n,1)|2),loge(|Y(n,2)|2),...,loge(|Y(n,k)|2),...,loge(|Y(n,M-1)|2)]
T(n)=[loge(|X(n,1)|2),loge(|X(n,2)|2),...,loge(|X(n,k)|2),...,loge(|X(n,M-1)|2)]
其中,|Y(n,1)|2为带噪语音通过短时傅里叶变换得到的第n帧第1个频带的功率,|Y(n,2)|2为带噪语音通过短时傅里叶变换得到的第n帧第2个频带的功率,|Y(n,k)|2为带噪语音通过短时傅里叶变换得到的第n帧第k个频带的功率,|Y(n,M-1)|2为带噪语音通过短时傅里叶变换得到的第n帧第M-1个频带的功率;|X(n,1)|2为纯净语音通过短时傅里叶变换得到的第n帧第1个频带的功率,|X(n,2)|2为纯净语音通过短时傅里叶变换得到的第n帧第2个频带的功率,|X(n,k)|2为纯净语音通过短时傅里叶变换得到的第n帧第k个频带的功率,|X(n,M-1)|2为纯净语音通过短时傅里叶变换得到的第n帧第M-1个频带的功率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111534489.7/1.html,转载请声明来源钻瓜专利网。