[发明专利]语音识别方法、装置、设备以及计算机可读存储介质有效
申请号: | 201710994268.5 | 申请日: | 2017-10-23 |
公开(公告)号: | CN107680597B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 梁浩;程宁;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02;G10L15/06;G10L15/16 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 林燕云 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 信息块 计算机可读存储介质 递归神经网络 语音特征序列 语音信息 预设 帧级 神经元 语音识别结果 输出结果 特征提取 语音解码 预设规则 和声学 输出层 分帧 后向 结点 前向 时延 并行 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层;
在所述预设的双向长短时递归神经网络模型的前后向计算中均采用块处理的方式读取帧级语音特征序列,即根据按帧长固定将读入帧级语音特征序列无重叠的等间隔的切分为多个主信息块,在反向计算中则拼接固定帧长的语音特征信息到每个主信息块的后面,此处拼接固定帧长的语音特征信息即组成相应的从信息块,每个主信息块以及相应的从信息块构成一信息块。
2.如权利要求1所述的方法,其特征在于,所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括:
对待测语音信息进行分帧以得到多个语音帧;
对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
3.如权利要求2所述的方法,其特征在于,所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括:
将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息;
将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息;
将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列;
其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。
4.如权利要求2所述的方法,其特征在于,所述预设的双向长短时递归神经网络模型的构建包括:
对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
对待测语音信息进行预处理;
其中,根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710994268.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:像素电路、其驱动方法及有机发光显示面板、显示装置
- 下一篇:一种电力变压器