[发明专利]修正线性深度自编码网络语音识别方法在审

申请号：	201611195535.4	申请日：	2016-12-22
公开（公告）号：	CN106782511A	公开（公告）日：	2017-05-31
发明（设计）人：	黄丽霞;张雪英;孙颖;娄英丹	申请（专利权）人：	太原理工大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02
代理公司：	太原倍智知识产权代理事务所(普通合伙)14111	代理人：	戎文华
地址：	030024 山西***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种修正线性深度自编码网络语音识别方法，所述方法首先是采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练，其次是引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题，最后通过逐层贪婪无监督的“预训练”和有监督的“微调”得到具有特征表示的权值进行语音识别。本方法充分利用了深度神经网络强大的从少数样本集中学习数据集本质特征的能力，克服了训练中的梯度消失和过拟合问题，提高了系统在噪声环境下的识别精度。
搜索关键词：	修正线性深度编码网络语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种修正线性深度自编码网络语音识别方法，所述方法首先是采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练，其次是引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题，最后通过逐层贪婪无监督的“预训练”和有监督的“微调”得到具有特征表示的权值进行语音识别，其具体方法是按下列步骤进行的：1）语音数据预处理：11）对语音信号进行采样和量化，采样率为，帧长256采样点，帧移128采样点；12）对步骤11）所得到的语音信号进行预处理，包括预加重、分帧、加窗以及归一化处理；13）将步骤12）所得的单帧信号进行端点检测，获得有效的单帧信号；2）提取声学特征：21）将步骤13）所得的有效单帧信号进行快速傅里叶变换，得到语音信号的频域信号；22）使用对应的滤波器组对步骤21）所得的频域信号进行滤波处理；23）对22）所得的滤波信号进行一系列非线性变换得到语音的声学特征；3）训练修正线性深度自编码网的步骤：31）利用“训练集”数据通过无监督逐层贪婪训练算法“预训练”网络的第一个修正线性自动编码器，并得到参数；32）将第一个RAE的输出作为第二个RAE的输入，按相同的方式继续训练得到第二组参数，并对后面所有的RAE采取相同的策略依次训练其参数；33）在所有隐含层训练完成之后，通过有监督的反向传播算法调整所有层的参数，实现网络“微调”；34）将最顶层的隐含层输出作为Softmax分类器的输入，对输入的语音数据进行分类识别；35）选用三种激活函数ReLU、Sigmoid、tanh与两种方法L2正则化和权重衰减Dropout的不同组合进行实验，分析不同方法对系统识别性能的影响；36）选用ReLU和L2正则化的组合方法较其他方法取得了最佳的识别结果，从而证明基于L2正则化的修正线性深度自编码网络模型构建方法的可行性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611195535.4/，转载请声明来源钻瓜专利网。

上一篇：基于连续混合高斯HMM模型的地名语音信号识别方法
下一篇：个性语音录入器的人工智能口头禅处理方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]修正线性深度自编码网络语音识别方法在审

专利文献下载