[发明专利]一种基于预训练和双向LSTM的语音识别方法有效
申请号: | 201810669327.6 | 申请日: | 2018-06-26 |
公开(公告)号: | CN108682418B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 金福生;王茹楠;张俊逸;韩翔宇 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/16;G10L15/06;G10L25/24;G10L25/18;G10L25/45;G10L25/30 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种模型预训练和双向LSTM的语音识别方法,属于深度学习和语音识别领域。1)输入待处理语音信号;2)预处理;3)提取梅尔倒谱系数及动态差分得到语音特征;4)构建双向LSTM结构;5)使用maxout函数优化双向LSTM,得到maxout‑biLSTM;6)模型预训练;7)使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练,得到结果。本发明使用maxout激活函数改进了双向LSTM的原激活函数,并且使用了模型预训练的方法,提高了声学模型在噪声环境下的鲁棒性,可应用于高噪声环境下语音识别模型的构建与训练。 | ||
搜索关键词: | 一种 基于 训练 双向 lstm 语音 识别 方法 | ||
【主权项】:
1.一种模型预训练和双向LSTM的语音识别方法,其特征在于:核心思想是改进了传统LSTM的激活函数,有效提高了模型在噪声环境下的鲁棒性;包括如下步骤:步骤一:输入待处理语音信号;步骤二:对步骤一输入的待处理语音信号进行预处理,得到预处理后的帧信号,包括如下子步骤:步骤2.1预加重,将步骤一输入的待处理语音信号通过一个高通滤波器,得到预加重后信号;步骤2.2分帧,选取25ms帧长,将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n),其中,n=0,1...,N‑1,N为帧内采样点个数;步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号,如公式(1):T′(i)=T(i)*Hi (1)其中,T(i)表示第i个语音帧信号;T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号,Hi为当前帧对应的汉明窗函数,i的取值范围是0至N‑1,N为帧采样点个数;其中,汉明窗函数为公式(2):其中,cos为余弦函数,i为当前对应的帧序号,i的取值范围是0至N‑1,+为帧内采样点个数,π为圆周率;步骤三:对步骤二输出的预处理后的帧信号进行快速傅立叶变换、使用梅尔尺度滤波器组过滤以及离散余弦变换为主的操作得到梅尔频率倒谱系数,再计算信号能量及提取梅尔倒谱系数的动态差分参数,得到语音特征;其中,梅尔频率倒谱系数全称为Mel‑frequency Cepstrum Coefficients,简称MFCC;步骤三包括如下子步骤:步骤3.1对步骤二输出的预处理信号进行快速傅立叶变换,得到各帧的幅度谱x(k);步骤3.2对步骤3.1输出的各帧的幅度谱使用梅尔尺度滤波器组过滤,得出梅尔频谱;具体为:使用M个带有梅尔刻度的三角形滤波器组成的滤波器组,将步骤3.1得到的频谱对应到梅尔刻度上,得到梅尔频谱;步骤3.3计算步骤3.2中三角滤波器的对数能量值s(m),如公式(3):式中,Fm(k)是第k个幅度谱的第m滤波器的频率响应,ln为对数函数,m的取值范围是1至M,m为对应频段的序号;步骤3.4对步骤3.3输出的对数能量值进行离散余弦变换得到MFCC,记作为C(n),如公式(4):其中,L指MFCC的阶数,L取12;M是指三角形滤波器的个数,C(j)是第j阶的MFCC;步骤3.5计算从t1时刻到t2时刻,每帧信号的能量En,如公式(5):其中,T′为加窗后的语音信号,t为当前时刻;步骤3.6计算每帧12维MFCC特征的一阶差分和二阶差分,以及每帧信号能量的一阶差分和二阶差分,并补上1维叠加帧,构成一帧信号的语音特征;其中,每帧信号的语音特征包括12维MFCC,12维MFCC的一阶差分,12维MFCC的二阶差分,1维能量,1维能量的一阶差分和1维能量的二阶差分,1维叠加帧,共40维语音特征;步骤四:构建基于maxout函数的双向LSTM,记为maxout‑biLSTM;具体为:将双向LSTM中的输入门和遗忘门的激活函数变为maxout函数;步骤五:使用maxout‑biLSTM进行前向和反向传播,具体包括:步骤5.1通过公式(6)和(7)更新遗忘门限ft与输入门限it:ft=maxout(Wf[St‑1,xt]+bf) (6)it=maxout(Wi[St‑1,xt]+bi) (7)其中,maxout是激活函数,Wf是遗忘门的权重矩阵,Wi是输入门的权重矩阵,St‑1是双向LSTM中前一时刻单元的输出,Xt是t时刻双向LSTM单元的输入,bf是遗忘门的偏置,bi是输入门的偏置;步骤5.2执行maxout‑biLSTM的正向反馈传播,更新候选值向量新细胞状态Ct,用于过滤输出细胞状态的过滤值ot、t时刻的输出值St,具体方法如公式(8)、(9)、(10)、(11)所示:ot=σ(Wo[St‑1,xt]+bo) (10)St=ot*tanh(σ(Wo[St‑1,xt]+bo)) (11)其中,σ为sigmoid函数,tanh为激活函数,Wc是细胞状态权重,bc是细胞状态的偏置,Wo是过滤值权重,bo是过滤值偏置,Xt是t时刻双向LSTM单元的输入,St‑1是双向LSTM中前一时刻单元的输出;步骤5.3使用截断梯度回传方法更新网络权重与偏置,实现模型的反向传播过程,具体为:步骤5.3.1计算遗忘门ft,输入门it,细胞状态Ct和过滤值ot四个参数的梯度,定义W为遗忘门、输入门、细胞状态及过滤值的权重和偏置矩阵,即如公式(12):步骤5.3.2求解误差E对权重和偏置矩阵W的偏导数,完成maxout‑biLSTM权重的更新;步骤六:模型预训练,又具体包括如下子步骤:步骤6.1采用实际训练数据量的λ%作为预训练数据集,在多层神经网络中进行前反馈传播,递归计算得到神经网络最后的输出结果aD,如公式(13):其中,f为多层神经网络的传递函数,为神经网络中第D‑1层与第D层的连接权重,aD‑1是前一层网络的输出,b为偏置;步骤6.2计算神经网络输出aD与真实输出y的误差值Ep,如公式(14):步骤6.3更新每个神经元上的权重,具体为计算权重的梯度,将权重梯度与训练因子相乘并取反后加到权重上;步骤6.4保存预训练后的网络参数,存储预训练后模型;步骤七:使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练,得到结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810669327.6/,转载请声明来源钻瓜专利网。