[发明专利]语音识别方法和装置有效

申请号：	201510504840.6	申请日：	2015-08-17
公开（公告）号：	CN105139864B	公开（公告）日：	2019-05-07
发明（设计）人：	刘孟竹;唐青松;张祥德	申请（专利权）人：	北京眼神智能科技有限公司
主分类号：	G10L25/24	分类号：	G10L25/24;G10L15/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100085 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音识别方法和装置，属于机器学习和语音识别领域，所述方法包括：获取待识别的语音信号；采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息。其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。与现有技术相比，本发明具有速度快、精度高的优点。

技术领域

本发明涉及机器学习和语音识别领域，特别是指一种语音识别方法和装置。

背景技术

人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够通过语音进行交流，无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的不断发展，人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本，以便机器理解和产生相应的操作，对实现机器智能具有重要的意义。

近年来，涌现了一些的语音识别方法，比较常用的语音识别方法有：模板匹配的方法和利用人工神经网络的方法。其中，隐马尔科夫模型(HMM，Hidden Markov Model)是最常用的模板匹配方法，该方法能够合理地模仿人的言语过程，较好地描述语音信号的整体非平稳性和局部平稳性；人工神经网络(ANN，Artificial Neural Network)能够模拟人类神经元的活动，具有自适应性、容错性、鲁棒性和学习性。但是，隐马尔科夫模型没有考虑帧与帧之间的相关性，其对概率密度的先验分布的假设缺乏非线性的判别能力，会导致系统精确度差，而且对操作环境的变化十分敏感；而人工神经网络增加了训练的计算要求，由于神经网络缺少对时间依赖问题的建模能力，不能适应语音时间序列，在连续识别任务方面表现很差。

发明内容

本发明要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。

为解决上述技术问题，本发明提供技术方案如下：

一种语音识别方法，包括：

获取待识别的语音信号；

采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；

将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；

其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

一种语音识别装置，包括：

获取模块：用于获取待识别的语音信号；

提取模块：用于采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；

识别模块：用于将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；