[发明专利]一种应用到端到端语音识别的CLDNN结构的建立方法有效
申请号: | 201910115486.6 | 申请日: | 2019-02-14 |
公开(公告)号: | CN109767759B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 冯昱劼;张毅;徐轩 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G06N3/08;G06N3/04 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用到 端到端 语音 识别 cldnn 结构 建立 方法 | ||
1.一种应用到端到端语音识别的CLDNN结构的建立方法,其特征在于,包括以下步骤:
S1、获取语音数据集并进行划分,将语音数据集划分为训练集、交叉验证集和测试集;
S2、对所有语音数据进行预处理,得到语音信号的梅尔频率倒谱系数MFCC;
S3、构建改进型CLDNN网络模型,包括由卷积神经网络CNN构成的语音特征抽象化处理部分、处理语音信号时序信息的残差卷积长短时记忆模型和将处理后的特征空间映射到输出层的深度神经网络DNN;
所述步骤S3中的残差卷积长短时记忆模型具体为:对全连接长短时记忆模型中的矩阵乘积替换为卷积运算得到卷积长短时记忆模型,对该模型使用残差网络结构得到残差卷积长短时记忆模型;所述残差网络结构用来构建深层网络,通过跳跃连接skip connection直接连接浅层网络与深层网络,从而使得梯度能更好地传递到浅层,残差网络由多个残差块构成,由多个残差块组成的深度残差网络结构来代替传统CLDNN模型中的多层LSTM长短时记忆模型结构;
S4、构建语音识别的损失函数,损失函数使用CTC loss,具体包括:
假设标签元素表L的大小为K,给定输入序列X=(x1,x2,…,xT),对应输出标签序列Y=(y1,y2,…,yU),CTC的任务是在给定的输入序列下,将损失值反馈给神经网络,通过调整神经网络内部参数使输出标签的对数概率最大化,即max(lnP(Y|X)),CTC连接时序分类还引入了空标签blank来表示不属于标签元素表L的映射;
将最后一层DNN后的softmax层输出作为CTC的输入,softmax输出包含K+1个节点映射到L∪{blank}中的每个元素,整个CTC路径概率如下式所示:
其中zt为在t时刻,softmax得到输出向量,代表第k个标签对应的后验概率,为了解决softmax输出和标签序列之间的对齐问题,引入输入序列在帧层面上一一对应的CTC路径p=(p1,p2,…,pT),将标签序列Y通过映射Ф对应到CTC路径p上,由于此映射是一对多的映射,所以一个标签可以对应多个CTC路径,所以标签Y的概率由所有对应此标签的CTC路径概率和表示为下式:
CTC的损失函数而被定义为每个训练样本正确标记的负对数之和,如下式:
S5、用训练集对步骤S3的改进型CLDNN模型进行训练,利用Adam算子优化步骤S4的目标函数,具体包括:
计算t时间步的梯度:
首先,计算梯度的指数移动平均数,m0初始化为0,综合考虑之前时间步的梯度动量,β1系数为指数衰减率,控制权重分配(动量与当前梯度),取值为0.9
mt=β1mt-1+(1-β1)gt
第二,计算梯度平方的指数移动平均数,v0初始化为0;β2系数为指数衰减率,控制之前的梯度平方的影响情况,取值为0.999;
第三,由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段;所以,此处需要对梯度均值mt进行偏差纠正,降低偏差对训练初期的影响;
第四,由于v0初始化为0导致训练初始阶段vt偏向0,对其进行纠正;
第五,更新参数,初始的学习率α乘以梯度均值与梯度方差的平方根之比;其中默认学习率α=0.001,ε=10^-8;
S6、使用验证集对步骤S5训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型。
2.根据权利要求1所述的一种应用到端到端语音识别的CLDNN结构的建立方法,其特征在于,所述步骤S2的预处理步骤包括:预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换。
3.根据权利要求1所述的一种应用到端到端语音识别的CLDNN结构的建立方法,其特征在于,所述步骤S6对步骤S5训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型,具体包括:
交叉验证步骤:
1、初始化权值,取权值为-0.5至0.5之间的随机数;
2、将学习样本空间C分为N份;
3、从学习数据文件中依规定顺序取出N-1份作为训练数据样本;剩下的第N份作为验证数据样本;完成步骤4到步骤7;
4、从训练数据样本中读入一个样本开始训练;
5、计算本样本输出误差总量度EP;修改两层权值直到EP(为规定的误差量度),读入下一个训练样本;
6、直到N-1份训练样本中所有样本学习结束,产生一组权值,用此组权值计算验证样本,计算验证样本的验证成功率RATE=(满足EP的验证样本个数)/(总的验证样本个数);
7、如果验证样本成功率RATErate(rate为规定的成功率),则结束此轮的学习;否则学习所有的验证样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910115486.6/1.html,转载请声明来源钻瓜专利网。