[发明专利]语音音素的识别方法及装置有效

申请号：	201711082646.9	申请日：	2017-11-07
公开（公告）号：	CN109754789B	公开（公告）日：	2021-06-08
发明（设计）人：	姜珂	申请（专利权）人：	北京国双科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/14;G10L15/02
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音音素识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音音素的识别方法及装置，涉及语音识别技术领域，主要目的在于解决语音识别时，切分音素效率低，或者，局部最优解的问题。本发明的主要技术方案包括：将待识别语音输入音素识别模型，并根据输出结果得到所述待识别语音对应的预期结果，其中，所述音素识别模型通过多种神经网络型模型及隐马尔可夫模型识别所述待识别语音中的各个音素；根据所述预期结果训练所述音素识别模型中的模型参数，直到所述音素模型输出结果的变化率小于预设阈值；确定所述变化率小于所述预设阈值的输出结果作为所述待识别语音对应的最终音素识别结果。本发明主要应用于识别声音的过程中。

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音音素的识别方法及装置。

背景技术

在语音识别领域中，音素(phone)作为语音中的最小的单位，要想提高识别的准确度，首先要提高每个音素的识别度。

目前，对于音素模型进行训练的主流方法主要有两种：一种是高斯混合隐马尔科夫模型(Gaussian mix-ture-hidden Markov model，GMM-HMM)，神经网络-隐马尔科夫模型DNN-HMM。其中，GMM-HMM主要利用HMM对音素对应的帧的变化状态进行拟合，然后利用GMM或者DNN对帧进行收敛，识别的时候采用viterbi进行解码，可以对音频进行基于时间帧的切分。

发明人在实现上述发明过程中，发现现有技术中特别是在识别汉字拼音的音素模型中，为了提高切分的正确性，在执行音素按照时间帧切分时，能够精确到毫秒等级，切分音素的效率较低；此外，在使用HMM过程中，由于HMM先天的一元假设、二元假设，会存在识别的音素陷入局部最优解中，降低了音素识别的准确性，若采用三元假设或四元假设等，识别音素的计算量巨大。

发明内容

有鉴于此，本发明提供的一种语音音素的识别方法及装置，主要目的在于解决语音识别时，切分音素效率低，或者，局部最优解的问题。

为了解决上述问题，本发明主要提供如下技术方案：

一方面，本发明提供了一种语音音素的识别方法，该方法包括：

将待识别语音输入音素识别模型，并根据输出结果得到所述待识别语音对应的预期结果，其中，所述音素识别模型通过多种神经网络型模型及隐马尔可夫模型识别所述待识别语音中的各个音素；

根据所述预期结果训练所述音素识别模型中的模型参数，直到所述音素模型输出结果的变化率小于预设阈值；

确定所述变化率小于所述预设阈值的输出结果作为所述待识别语音对应的最终音素识别结果。

可选的，在将待识别语音输入音素识别模型之前，所述方法还包括：

构建所述音素识别模型。

可选的，所述构建所述音素识别模型，包括：

构建卷积神经网络CNN以及预设数量层数的长短期记忆网络LSTM；

添加深度神经网络DNN以及隐马尔可夫模型HMM；