[发明专利]一种基于DNN-CLSTM网络的语音增强方法在审
申请号: | 202011323987.2 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112735456A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 汪友明;张天琦 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/24;G10L25/30 |
代理公司: | 西安佳士成专利代理事务所合伙企业(普通合伙) 61243 | 代理人: | 李丹 |
地址: | 710121 陕西省西安市*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dnn clstm 网络 语音 增强 方法 | ||
1.一种基于DNN-CLSTM网络的语音增强方法,其特征在于包括以下步骤:
步骤一:获取含噪语音信号。含噪语音信号由纯净语音信号和噪声信号相加而成:
y(m)=x(m)+n(m)
其中,y(m)是含噪的语音信号,x(m)是纯净的语音信号,n(m)是噪声信号,m为离散时间序列;
步骤二:分帧加窗处理,获取纯净语音信号和含噪语音信号的幅值和相位;
对含噪语音信号进行加窗分帧处理,并使用离散傅里叶变化得到含噪语音信号的幅值以及相位。利用语音段中的前五帧信号作为噪声估计,求出噪声信号幅值;
步骤三:用含噪语音信号的幅值减去所述噪声信号幅值即可得到谱减语音信号幅值作为第一特征;
步骤四:求取语音信号的MFCC作为第二特征;
步骤五:建立DNN-CLSTM网络模型进行训练;
将含噪语音谱减后的语音信号幅值和MFCC这两种特征输入至DNN-CLSTM网络中进行训练,得到预测的幅值和MFCC;将预测的幅值和MFCC分别与纯净的幅值和纯净的MFCC数值计算各自的最小均方误差(MMSE),并将所得到的误差作为调整信号输入进神经网络对网络进行优化,从而得到训练好的网络。
2.如权利要求1基于DNN-CLSTM网络的语音增强方法,其特征在于,所述步骤四的具体过程是:
(1)预处理:预处理包括预加重、分帧、加窗函数;
预加重处理:通过一个一阶的高通滤波器实现,滤波器的传递函数为:
H(z)=1-az-1
其中,a为预加重系数,一般取值为0.98;语音信号x(n)通过预加重处理后的结果为:
y(n)=x(n)-ax(n-1)
分帧加窗:在相邻两帧之间有重叠的部分,即为帧移,设置为10ms;加窗函数:对每一帧语音信号进行汉明窗加窗处理:y(n)经过分帧加窗处理后得到yi(n),其定义为:
其中,ω(n)为汉明窗,它的表达式为
其中,yi(n)表示第i帧语音信号,n表示样点数,L表示帧长;
(2)快速傅里叶变换(FFT)
对每帧语音信号yi(n)进行快速傅里叶变换,得到每帧信号的频谱,表达式如下:
Y(i,k)=FFT[yi(n)]
其中,k表示频域中的第k条谱线;
(3)计算谱线能量
频域中每一帧语音信号谱线的能量E(i,k)表示为:
E(i,k)=[Y(i,k)]2
(4)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器的能量S(i,m)定义为:
其中,N表示FFT的点数,M为滤波器的个数;
每个滤波器的传递函数Hm(k)为
其中,f(m)为第m个滤波器的中心频率,m为第m个滤波器;
(5)计算MFCC
将Mel滤波器的能量取对数后计算离散余弦变换得到MFCC特征参数,如下式所示:
其中,j是离散余弦变换(DCT)后的谱线。
3.如权利要求1基于DNN-CLSTM网络的语音增强方法,其特征在于,所述步骤五的具体过程是:
(1)DNN网络建立
输入层:将经过谱减后的语音幅值和MFCC特征作为输入,输入DNN网络中,输入层的神经元的节点数为128个;
全连接层:设置32个节点,丢弃率设为0.5,设置激活函数为RELU;
全连接层:设置128个节点,丢弃率值设为0.5,设置激活函数为RELU;
全连接层:设置512个节点,丢弃率值设为0.5,设置激活函数为RELU;(2)多目标特征融合:
将DNN网络增强后的幅值和MFCC特征与原始含噪语音的幅值和MFCC特征相结合;
其中和分别代表第k个空间领域中经过DNN预测的MFCC特征和语音幅值;分别代表第k个空间领域中原始含噪语音的MFCC特征和语音幅值;
(3)C-LSTM网络:
(a)CNN:
卷积层:对DNN网络得到的结果进行卷积,节点数设置为64个节点,步长设为1,卷积核取5*1,激活函数设置为SELU;
BN层:对数据进行归一化;
卷积层:节点数设置为64个节点,步长设为1,卷积核取3*1,激活函数设置为SELU;
BN层:对数据进行归一化
卷积层:节点数设置为128个节点,步长设为1,卷积核取5*1,
(b)残差网络
对DNN网络得到的结果进行卷积,节点数设置为128个节点,步长设为1,卷积核取5*1;
将残差网络得到数据与CNN网络得到的数据进行结合后,使用SELU激活函数;
Max Pooling层:步长设置为1,池化层大小设置为2
(c)LSTM网络:
长短时记忆网络的双向网络节点均选取为128节点,激活函数为Sigmoid函数,
(4)输出层:
使用两个前馈神经网络作为输出层,输出预测的语音信号幅值、MFCC;网络模型采用Adam优化器对网络参数进行优化;所有卷积层采用边缘填充方式。
(5)计算最小均方误差目标函数
其中T=2,分别代表第k个声学特征空间预测的MFCC特征向量和预测幅值特征分别代表第k个声学特征空间纯净的MFCC特征向量和纯净幅值特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011323987.2/1.html,转载请声明来源钻瓜专利网。