[发明专利]一种训练语音识别模型、识别语音的方法及装置在审
申请号: | 201910708335.1 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110767215A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 赵帅江;赵茜;罗讷 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/20;G10L15/26;G10L21/0208 |
代理公司: | 11646 北京超成律师事务所 | 代理人: | 王文红 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 训练语音 样本语音 基础语音 语音 语音识别结果 准确度 冲击响应 扩展处理 信息对应 噪声语音 车内 申请 | ||
本申请提供了一种训练语音识别模型、识别语音的方法及装置,训练语音识别模型的方法包括:获取多条基础语音信息;基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理,得到样本语音信息;基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果,训练语音识别模型;所述语音识别模型用于对待识别语音进行语音识别。该申请实施例能够使得语音识别模型具有更强的泛化能力,提升语音识别模型的精度,进而提升对语音识别的准确度。
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种训练语音识别模型、识别语音的方法及装置。
背景技术
近年来,随着语音产品的不断推广,语音输入作为一种重要的人机交互手段,被越来越多的人们所接受。例如在网约车领域,在很多情况下需要通过车载设备捕捉车辆内服务提供方或者服务请求方所发出的语音,并基于语音识别模型对捕捉的语音进行识别。
但由于汽车内空间距离小,车内噪音复杂,例如除了人声,还会有发动机轰鸣声、车辆行驶过程中与地面的摩擦声、车载设备运行时出现的杂音等,而鉴于不同车型的车辆,车内构造不同、车内空间大小不同、车载设备的安装位置不同、车载设备的配置不同等,都会使得车内噪音存在较大的差异。因此在对语音识别模型训练的时候,如果不针对不同车型、不同外界条件进行详细化的训练样本筛选,会造成得到的语音识别模型泛化能力较差,进而导致对车内语音的识别不准确。但在实际中,很难针对不同车型、不同外界条件获取较为全面的训练样本,进而造成语音识别模型精度难以提升的问题。
发明内容
有鉴于此,本申请的目的在于提供一种训练语音识别模型、识别语音的方法及装置,能够能够使得语音识别模型具有更强的泛化能力,提升语音识别模型的精度,进而提升对语音识别的准确度。
第一方面,本申请实施例提供了一种训练语音识别模型的方法,包括:
获取多条基础语音信息;
基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理,得到样本语音信息;
基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果,训练语音识别模型;所述语音识别模型用于对待识别语音进行语音识别。
一种可能的实施方式中,获取所述基础语音信息,包括:
获取原始语音信息;
从所述原始语音信息中截取包含人声的第一目标语音信息;
基于所述第一目标语音信息,生成所述基础语音信息。
一种可能的实施方式中,所述基于所述第一目标语音信息,生成所述基础语音信息,包括:
对所述第一目标语音信息进行如下一种或者多种处理,得到所述基础语音信息:
噪声过滤处理、去除静音处理、方言分类处理、无效语音过滤处理。
一种可能的实施方式中,获取所述噪声语音信息,包括:
在多种环境下,基于车载语音系统,获取原始车载语音信息;
从所述原始车载语音信息中截取不包含人声以及静音的第二目标语音信息;
基于所述第二目标语音信息,得到所述噪声语音信息。
一种可能的实施方式中,所述基于所述第二目标语音信息,得到所述噪声语音信息,包括:
剔除所述第二目标语音信息中信噪比高于预设信噪比阈值的信息,得到所述噪声语音信息。
一种可能的实施方式中,获取所述车内冲击响应信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910708335.1/2.html,转载请声明来源钻瓜专利网。