[发明专利]一种基于DNN-CLSTM网络的语音增强方法在审

申请号：	202011323987.2	申请日：	2020-11-23
公开（公告）号：	CN112735456A	公开（公告）日：	2021-04-30
发明（设计）人：	汪友明;张天琦	申请（专利权）人：	西安邮电大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0216;G10L25/24;G10L25/30
代理公司：	西安佳士成专利代理事务所合伙企业(普通合伙) 61243	代理人：	李丹
地址：	710121 陕西省西安市***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dnn clstm 网络语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DNN-CLSTM网络的语音增强方法，其特征在于包括以下步骤：

步骤一：获取含噪语音信号。含噪语音信号由纯净语音信号和噪声信号相加而成：

y(m)＝x(m)+n(m)

其中，y(m)是含噪的语音信号，x(m)是纯净的语音信号，n(m)是噪声信号，m为离散时间序列；

步骤二：分帧加窗处理，获取纯净语音信号和含噪语音信号的幅值和相位；

对含噪语音信号进行加窗分帧处理，并使用离散傅里叶变化得到含噪语音信号的幅值以及相位。利用语音段中的前五帧信号作为噪声估计，求出噪声信号幅值；

步骤三：用含噪语音信号的幅值减去所述噪声信号幅值即可得到谱减语音信号幅值作为第一特征；

步骤四：求取语音信号的MFCC作为第二特征；

步骤五：建立DNN-CLSTM网络模型进行训练；

将含噪语音谱减后的语音信号幅值和MFCC这两种特征输入至DNN-CLSTM网络中进行训练，得到预测的幅值和MFCC；将预测的幅值和MFCC分别与纯净的幅值和纯净的MFCC数值计算各自的最小均方误差(MMSE)，并将所得到的误差作为调整信号输入进神经网络对网络进行优化，从而得到训练好的网络。

2.如权利要求1基于DNN-CLSTM网络的语音增强方法，其特征在于，所述步骤四的具体过程是：

(1)预处理：预处理包括预加重、分帧、加窗函数；

预加重处理：通过一个一阶的高通滤波器实现，滤波器的传递函数为：

H(z)＝1-az^-1

其中，a为预加重系数，一般取值为0.98；语音信号x(n)通过预加重处理后的结果为：

y(n)＝x(n)-ax(n-1)

分帧加窗：在相邻两帧之间有重叠的部分，即为帧移，设置为10ms；加窗函数：对每一帧语音信号进行汉明窗加窗处理：y(n)经过分帧加窗处理后得到y_i(n)，其定义为：

其中，ω(n)为汉明窗，它的表达式为

其中，y_i(n)表示第i帧语音信号，n表示样点数，L表示帧长；

(2)快速傅里叶变换(FFT)

对每帧语音信号y_i(n)进行快速傅里叶变换，得到每帧信号的频谱，表达式如下：

Y(i,k)＝FFT[y_i(n)]

其中，k表示频域中的第k条谱线；

(3)计算谱线能量

频域中每一帧语音信号谱线的能量E(i,k)表示为：

E(i,k)＝[Y(i,k)]²

(4)计算通过Mel滤波器的能量

每一帧谱线能量通过Mel滤波器的能量S(i,m)定义为：

其中，N表示FFT的点数，M为滤波器的个数；

每个滤波器的传递函数H_m(k)为

其中，f(m)为第m个滤波器的中心频率，m为第m个滤波器；

(5)计算MFCC

将Mel滤波器的能量取对数后计算离散余弦变换得到MFCC特征参数，如下式所示：

其中，j是离散余弦变换(DCT)后的谱线。

3.如权利要求1基于DNN-CLSTM网络的语音增强方法，其特征在于，所述步骤五的具体过程是：

(1)DNN网络建立

输入层：将经过谱减后的语音幅值和MFCC特征作为输入，输入DNN网络中，输入层的神经元的节点数为128个；

全连接层：设置32个节点，丢弃率设为0.5，设置激活函数为RELU；

全连接层：设置128个节点，丢弃率值设为0.5，设置激活函数为RELU；

全连接层：设置512个节点，丢弃率值设为0.5，设置激活函数为RELU；(2)多目标特征融合：

将DNN网络增强后的幅值和MFCC特征与原始含噪语音的幅值和MFCC特征相结合；

其中和分别代表第k个空间领域中经过DNN预测的MFCC特征和语音幅值；分别代表第k个空间领域中原始含噪语音的MFCC特征和语音幅值；

(3)C-LSTM网络：

(a)CNN:

卷积层：对DNN网络得到的结果进行卷积，节点数设置为64个节点，步长设为1，卷积核取5*1，激活函数设置为SELU；

BN层：对数据进行归一化；

卷积层：节点数设置为64个节点，步长设为1，卷积核取3*1，激活函数设置为SELU；

BN层：对数据进行归一化

卷积层：节点数设置为128个节点，步长设为1，卷积核取5*1，

(b)残差网络

对DNN网络得到的结果进行卷积，节点数设置为128个节点，步长设为1，卷积核取5*1；

将残差网络得到数据与CNN网络得到的数据进行结合后，使用SELU激活函数；

Max Pooling层：步长设置为1，池化层大小设置为2

(c)LSTM网络：

长短时记忆网络的双向网络节点均选取为128节点，激活函数为Sigmoid函数，

(4)输出层：

使用两个前馈神经网络作为输出层，输出预测的语音信号幅值、MFCC；网络模型采用Adam优化器对网络参数进行优化；所有卷积层采用边缘填充方式。

(5)计算最小均方误差目标函数

其中T＝2，分别代表第k个声学特征空间预测的MFCC特征向量和预测幅值特征分别代表第k个声学特征空间纯净的MFCC特征向量和纯净幅值特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安邮电大学，未经西安邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011323987.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种Ti-Al-V-Fe合金无缝管的短流程制备方法
下一篇：一种耐高温玻璃针刺毡

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DNN-CLSTM网络的语音增强方法在审

专利文献下载