[发明专利]端到端架构的通用场景中文普通话语音识别方法在审
申请号: | 202010690798.2 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111681646A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 沈宜;代龙翔;张家亮;贾宇 | 申请(专利权)人: | 成都三零凯天通信实业有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/04;G10L15/16;G10L15/22;G10L15/26;G10L21/0216;G10L25/24;G10L25/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
地址: | 610041 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 架构 通用 场景 中文 普通话 语音 识别 方法 | ||
本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中,在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉,在后端使用的是现在流行的端到端语音识别模型,其中分为语音识别声学模型和语音识别语言模型,语音识别声学模型使用的是混合CTC和注意力联合解码方式,具有更精准的解码和更清晰的语义逻辑;语音识别语言模型模型使用的是双向循环神经网络模型,该模型常适用于文本处理,处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性,具有抗噪音的特性;并且在语音识别完成后能够正确纠错,可以对语音内容进行完整提取。
技术领域
本发明涉及语音音频识别技术领域,尤其是一种端到端架构的通用场景中文普通话语音识别方法。
背景技术
随着现代多媒体信息的膨胀式爆发,各种各样的新闻、短视频、语音消息都在网络上流行起来。随着手机,新闻客户端,自媒体的普及,这些音视频数据需要越来越多的人和物资进行管理,并将这些数据进行审核处理。人工处理这些数据会带来低效率和较多的物力成本。目前虽然自动语音识别以及普及开来,但目前还没有完全效应用到音频检测和管理上。
从互联网需求来说如何有效地识别出大规模音频内容中的特定内容,成为目前网络信息音频管理亟待解决的十分重要问题。而从技术的方面对于目前语音识别效果来说遇到高背景噪音的情况就会使得语音识别效果变的非常差,急需要对于模型进行鲁棒性增强,模型具有抗噪音的特性。同时现在端到端系统识别的在数据量较少的情况下语音识别效果一般,对数据量需求还是非常大的。在语音识别完成后需要进行处理纠错,目前可以正确纠错的模型较少。在识别完成音频内容后,如何自动提取相关关键的实体信息,对于某些信息是否能提取完整也是一个比较有挑战的问题。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种端到端架构的通用场景中文普通话语音识别方法。
本发明采用的技术方案如下:
一种端到端架构的通用场景中文普通话语音识别方法,包括如下步骤:
S1,分别训练语音增强模型和语音识别模型;所述语音识别模型包括语音识别声学模型和语音识别语言模型,其中,所述语音识别声学模型使用的是混合CTC和注意力机制的模型,所述语音识别语言模型使用的是双向循环神经网络模型;
S2,提取整段待测语音,按照语音活性检测方切分成若干固定时长的语音段落,包括无语音段落和有语音段落,并对所有语音段落进行序号标记;同时计算出所有语音段落的信噪比,并通过计算出的信噪比进行判断:将信噪比低于设定阀值的语音段落输入语音增强模型,否则执行步骤S4;
S3,语音增强模型对输入其中的语音段落进行降噪后,执行步骤S4;
S4,对步骤S2中信噪比不低于设定阈值的语音段落,以及步骤S3中进行降噪后的语音段落进行语音预处理,提取每个语音段落的MFCC特征参数;然后将MFCC特征参数输入语音识别模型;
S5,语音识别模型中,先经过语音识别声学模型对MFCC特征参数进行识别,得到词序列token;然后经过语音识别语言模型对词序列token进行解码纠正,得到每个语音段落的语音文本;
S6,按照所有语音段落的序号标记合并每个语音段落的语音文本,得到整段待测语音的整个文本。
进一步的,步骤S1中,训练语音识别声学模型的数据集是中文普通话语音数据集,训练语音识别语言模型的数据集是中文普通话文本数据集,训练语音增强模型的数据集为中文普通话带噪音语音数据集。
进一步的,所述中文普通话录音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都三零凯天通信实业有限公司,未经成都三零凯天通信实业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010690798.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中药洗发水及其制备方法和应用
- 下一篇:反挤模具调整定位固定装置