[发明专利]结合声效模式检测的语音识别方法有效
申请号: | 201810017095.6 | 申请日: | 2018-01-09 |
公开(公告)号: | CN108172215B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 晁浩;智慧来;刘志中;刘永利;鲁保云 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 模式 检测 语音 识别 方法 | ||
本发明公开了一种结合声效模式检测的语音识别方法。该方法包括如下步骤:接收语音信号;检测所述语音信号中的元音,生成元音集合;提取元音集合中每一个元音的声学特征序列;根据回声状态网络将元音集合中每一个元音的声学特征序列转换为用于声效模式检测的段特征矢量;根据元音集合中每一个元音的段特征矢量检测所述语音信号的声效模式;从预置的声学模型集中选择所述语音信号的声效模式对应的声学模型子集;根据声学模型子集对所述语音信号进行解码。
技术领域
本发明涉及语音识别领域,特别涉及一种结合声效模式检测的语音识别方法。
背景技术
声音效果(Vocal Effort)简称声效,是正常人的一种发音变化的衡量,而这种发音变化是人出于正常交流的需要,根据交流时双方距离的远近或背景噪声的高低自动调整发音方式所产生的。通常将声效由低到高分为五个量级/模式:耳语、轻声、正常、大声、高喊。在现实的环境中,人们不可能一直都在同一种声效水平下交流:在图书馆或者自习室里需要通过耳语的方式交流;在吵杂的场合需要大声说话对方才能听见;而在嘈杂的工厂车间可能就需要通过高喊的方式才能够交流。
近年来语音识别技术已进入实用的阶段,并取得很好的效果。但是目前的语音识别技术主要还是针对正常声音效果下的语音信号。声效模式的改变使得语音信号的声学特性发生了变化,因此正常声效模式的语音识别系统在识别其它四种声效模式(特别是耳语模式)的语音信号时识别精度会有较大幅度的下降,使得语音识别技术的适用范围较窄。
发明内容
本发明的目的在于针对现有技术中的语音识别方法在识别其它四种声效模式的语音信号时精度不高的缺陷,提出一种结合声效模式检测的语音识别方法,能够精确地检测待识别语音信号所属的声效模式,并在此基础上提高对所有声效模式的语音信号的识别精度,扩展语音识别技术的适用范围。
本发明公开了一种结合声效模式检测的语音识别方法,其具体包括以下步骤:
步骤1、接收语音信号;
步骤2、检测所述语音信号中的元音,生成元音集合;
步骤3、提取所述元音集合中每一个元音的声学特征序列;
步骤4、根据回声状态网络将所述元音集合中每一个元音的声学特征序列转换为用于声效模式检测的段特征矢量;
步骤5、根据所述元音集合中每一个元音的段特征矢量检测所述语音信号的声效模式;
步骤6、从预置的声学模型集中选择所述语音信号的声效模式对应的声学模型子集;
步骤7、根据所述声学模型子集对所述语音信号进行解码。
上述技术方案中,步骤4利用回声状态网络将声学特征序列转换为声效相关特征矢量,即将基于语音帧的特征序列转换为描述语音段的特征矢量。在这个过程中由于回声状态网络储备池存在自反馈环节,能有效利用相邻语音帧之间存在的内在联系,提高声效模式识别精度。在此基础上,步骤6中预置的声学模型集共包含了5个声学模型子集,每个声学模型子集分别对应一种声效模式,而每一个声学模型子集在训练时使用的是对应声效模式的语料库,这样每个声学模型子集中的声学模型能很好地拟合其对应声效模式语音的声学特性。在识别时先准确地检测出语音信号的声效模式,再利用对应的声学模型子集来进行解码,就可以有效地提高语音识别的精度,扩展语音识别技术的应用范围。
附图说明
图1是根据本发明的一种结合声效模式检测的语音识别方法的流程图;
图2是根据本发明的一个回声状态网络的结构示意图。。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810017095.6/2.html,转载请声明来源钻瓜专利网。