[发明专利]语音音素的识别方法及装置有效
申请号: | 201711082646.9 | 申请日: | 2017-11-07 |
公开(公告)号: | CN109754789B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 姜珂 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/14;G10L15/02 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 音素 识别 方法 装置 | ||
本发明公开了一种语音音素的识别方法及装置,涉及语音识别技术领域,主要目的在于解决语音识别时,切分音素效率低,或者,局部最优解的问题。本发明的主要技术方案包括:将待识别语音输入音素识别模型,并根据输出结果得到所述待识别语音对应的预期结果,其中,所述音素识别模型通过多种神经网络型模型及隐马尔可夫模型识别所述待识别语音中的各个音素;根据所述预期结果训练所述音素识别模型中的模型参数,直到所述音素模型输出结果的变化率小于预设阈值;确定所述变化率小于所述预设阈值的输出结果作为所述待识别语音对应的最终音素识别结果。本发明主要应用于识别声音的过程中。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音音素的识别方法及装置。
背景技术
在语音识别领域中,音素(phone)作为语音中的最小的单位,要想提高识别的准确度,首先要提高每个音素的识别度。
目前,对于音素模型进行训练的主流方法主要有两种:一种是高斯混合隐马尔科夫模型(Gaussian mix-ture-hidden Markov model,GMM-HMM),神经网络-隐马尔科夫模型DNN-HMM。其中,GMM-HMM主要利用HMM对音素对应的帧的变化状态进行拟合,然后利用GMM或者DNN对帧进行收敛,识别的时候采用viterbi进行解码,可以对音频进行基于时间帧的切分。
发明人在实现上述发明过程中,发现现有技术中特别是在识别汉字拼音的音素模型中,为了提高切分的正确性,在执行音素按照时间帧切分时,能够精确到毫秒等级,切分音素的效率较低;此外,在使用HMM过程中,由于HMM先天的一元假设、二元假设,会存在识别的音素陷入局部最优解中,降低了音素识别的准确性,若采用三元假设或四元假设等,识别音素的计算量巨大。
发明内容
有鉴于此,本发明提供的一种语音音素的识别方法及装置,主要目的在于解决语音识别时,切分音素效率低,或者,局部最优解的问题。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明提供了一种语音音素的识别方法,该方法包括:
将待识别语音输入音素识别模型,并根据输出结果得到所述待识别语音对应的预期结果,其中,所述音素识别模型通过多种神经网络型模型及隐马尔可夫模型识别所述待识别语音中的各个音素;
根据所述预期结果训练所述音素识别模型中的模型参数,直到所述音素模型输出结果的变化率小于预设阈值;
确定所述变化率小于所述预设阈值的输出结果作为所述待识别语音对应的最终音素识别结果。
可选的,在将待识别语音输入音素识别模型之前,所述方法还包括:
构建所述音素识别模型。
可选的,所述构建所述音素识别模型,包括:
构建卷积神经网络CNN以及预设数量层数的长短期记忆网络LSTM;
添加深度神经网络DNN以及隐马尔可夫模型HMM;
利用所述卷积神经网络CNN、所述长短期记忆网络LSTM、深度神经网络DNN以及所述隐马尔可夫模型HMM构建所述音素识别模型,并为所述音素识别模型赋初始化值,其中,所述卷积神经网络CNN作为所述待识别语音的输入端,所述深度神经网络DNN作为所述待识别语音的输出端。
可选的,根据输出结果得到所述待识别语音对应的预期结果包括:
将所述待识别语音输入所述卷积神经网络CNN,对所述待识别语音进行降噪处理;
将降噪后的所述待识别语音输入所述预设数量层数的长短期记忆网络LSTM,对所述待识别语音进行拟合,其中,长短期记忆网络LSTM通过激活遗忘门将无效音素过滤,通过激活记忆门将有效音素保留;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711082646.9/2.html,转载请声明来源钻瓜专利网。