[发明专利]一种应用到端到端语音识别的CLDNN结构的建立方法有效

申请号：	201910115486.6	申请日：	2019-02-14
公开（公告）号：	CN109767759B	公开（公告）日：	2020-12-22
发明（设计）人：	冯昱劼;张毅;徐轩	申请（专利权）人：	重庆邮电大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/06;G06N3/08;G06N3/04
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红;陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用到端到端语音识别 cldnn 结构建立方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种应用到端到端语音识别的CLDNN结构的建立方法，其特征在于，包括以下步骤：

S1、获取语音数据集并进行划分，将语音数据集划分为训练集、交叉验证集和测试集；

S2、对所有语音数据进行预处理，得到语音信号的梅尔频率倒谱系数MFCC；

S3、构建改进型CLDNN网络模型，包括由卷积神经网络CNN构成的语音特征抽象化处理部分、处理语音信号时序信息的残差卷积长短时记忆模型和将处理后的特征空间映射到输出层的深度神经网络DNN；

所述步骤S3中的残差卷积长短时记忆模型具体为：对全连接长短时记忆模型中的矩阵乘积替换为卷积运算得到卷积长短时记忆模型，对该模型使用残差网络结构得到残差卷积长短时记忆模型；所述残差网络结构用来构建深层网络，通过跳跃连接skip connection直接连接浅层网络与深层网络，从而使得梯度能更好地传递到浅层，残差网络由多个残差块构成，由多个残差块组成的深度残差网络结构来代替传统CLDNN模型中的多层LSTM长短时记忆模型结构；

S4、构建语音识别的损失函数，损失函数使用CTC loss，具体包括：

假设标签元素表L的大小为K，给定输入序列X＝(x₁,x₂,…,x_T)，对应输出标签序列Y＝(y₁,y₂,…,y_U)，CTC的任务是在给定的输入序列下，将损失值反馈给神经网络，通过调整神经网络内部参数使输出标签的对数概率最大化，即max(lnP(Y|X))，CTC连接时序分类还引入了空标签blank来表示不属于标签元素表L的映射；

将最后一层DNN后的softmax层输出作为CTC的输入，softmax输出包含K+1个节点映射到L∪{blank}中的每个元素，整个CTC路径概率如下式所示：

其中z_t为在t时刻，softmax得到输出向量，代表第k个标签对应的后验概率，为了解决softmax输出和标签序列之间的对齐问题，引入输入序列在帧层面上一一对应的CTC路径p＝(p₁,p₂,…,p_T)，将标签序列Y通过映射Ф对应到CTC路径p上，由于此映射是一对多的映射，所以一个标签可以对应多个CTC路径，所以标签Y的概率由所有对应此标签的CTC路径概率和表示为下式：

CTC的损失函数而被定义为每个训练样本正确标记的负对数之和，如下式：

S5、用训练集对步骤S3的改进型CLDNN模型进行训练，利用Adam算子优化步骤S4的目标函数，具体包括：

计算t时间步的梯度：

首先，计算梯度的指数移动平均数，m0初始化为0，综合考虑之前时间步的梯度动量，β1系数为指数衰减率，控制权重分配(动量与当前梯度)，取值为0.9

m_t＝β₁m_t-1+(1-β₁)g_t

第二，计算梯度平方的指数移动平均数，v0初始化为0；β2系数为指数衰减率，控制之前的梯度平方的影响情况，取值为0.999；

第三，由于m0初始化为0，会导致mt偏向于0，尤其在训练初期阶段；所以，此处需要对梯度均值mt进行偏差纠正，降低偏差对训练初期的影响；

第四，由于v0初始化为0导致训练初始阶段vt偏向0，对其进行纠正；

第五，更新参数，初始的学习率α乘以梯度均值与梯度方差的平方根之比；其中默认学习率α＝0.001，ε＝10^-8；

S6、使用验证集对步骤S5训练后的模型进项交叉验证，调整模型的超参数，得到最终网络模型。

2.根据权利要求1所述的一种应用到端到端语音识别的CLDNN结构的建立方法，其特征在于，所述步骤S2的预处理步骤包括：预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换。

3.根据权利要求1所述的一种应用到端到端语音识别的CLDNN结构的建立方法，其特征在于，所述步骤S6对步骤S5训练后的模型进项交叉验证，调整模型的超参数，得到最终网络模型，具体包括：