[发明专利]一种应用到端到端语音识别的CLDNN结构的建立方法有效
申请号: | 201910115486.6 | 申请日: | 2019-02-14 |
公开(公告)号: | CN109767759B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 冯昱劼;张毅;徐轩 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G06N3/08;G06N3/04 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于改进型CLDNN结构的端到端语音识别方法,常用于语音识别的传统CLDNN结构采用全连接LSTM(Long Short Term Memory)模型处理语音信号中的时序信息,在训练过程中易发生过拟合现象,影响学习效果。更深的模型往往表现更为优秀,但通过简单堆叠网络层增加模型深度会发生梯度消失、梯度爆炸和“退化”问题。针对以上现象及问题,本发明提出一种改进型CLDNN结构,采用残差网络和ConvLSTM结合方式建立残差ConvLSTM模型,并以此代替传统CLDNN结构中的全连接LSTM模型。该模型结构改善了传统CLDNN模型存在的问题,并且可以通过堆叠残差ConvLSTM块增加模型深度而不发生梯度消失、梯度爆炸和“退化”问题,使语音识别系统性能更优。 | ||
搜索关键词: | 一种 用到 端到端 语音 识别 cldnn 结构 建立 方法 | ||
【主权项】:
1.一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,包括以下步骤:S1、获取语音数据集并进行划分,将语音数据集划分为训练集、交叉验证集和测试集;S2、对所有语音数据进行预处理,得到语音信号的梅尔频率倒谱系数MFCC;S3、构建改进型CLDNN网络模型,包括由卷积神经网络CNN构成的语音特征抽象化处理部分、处理语音信号时序信息的残差卷积长短时记忆模型和将处理后的特征空间映射到输出层的深度神经网络DNN;S4、构建语音识别的损失函数,损失函数使用CTC loss;S5、用训练集对步骤S3的改进型CLDNN模型进行训练,利用Adam算子优化步骤S4的目标函数;S6、使用验证集对步骤S5训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910115486.6/,转载请声明来源钻瓜专利网。