[发明专利]语音识别方法和装置有效
申请号: | 201510504840.6 | 申请日: | 2015-08-17 |
公开(公告)号: | CN105139864B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 刘孟竹;唐青松;张祥德 | 申请(专利权)人: | 北京眼神智能科技有限公司 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L15/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
1.一种语音识别方法,其特征在于,包括:
获取待识别的语音信号;
采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数;
所述RNN的训练方法包括:
当隐含层为递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
将所述激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数;
所述RNN在逐层训练之后还进行了end-to-end训练,所述end-to-end训练包括:
将逐层训练得到的每层隐含层的参数作为RNN参数的初始值,将训练样本的MFCC特征作为RNN的输入,从第一层隐含层开始,到最后一层隐含层结束,逐层向后传播,得到最后一层隐含层的激活值;
将最后一层隐含层的激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
采用误差反向传播算法从最后一层隐含层开始,到第一层隐含层结束,逐层地向前传播,调整每层隐含层的RNN参数。
2.根据权利要求1所述的语音识别方法,其特征在于,所述RNN的逐层训练方法包括:
当隐含层为非递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
将所述激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。
3.根据权利要求2所述的语音识别方法,其特征在于,所述误差反向传播算法为BP算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京眼神智能科技有限公司,未经北京眼神智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510504840.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:带收集器装置的收谷机
- 下一篇:玻璃瓶夹具