[发明专利]语音识别模型的生成方法、识别方法、装置、介质及设备在审

申请号：	202210441630.7	申请日：	2022-04-25
公开（公告）号：	CN114765025A	公开（公告）日：	2022-07-19
发明（设计）人：	马娆;吴璟成;马泽君	申请（专利权）人：	脸萌有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/26;G10L13/08
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	温易娜
地址：	英国开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别模型生成方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音识别模型的生成方法、识别方法、装置、介质及设备，语音识别模型的生成方法包括：获取目标命名实体词表；基于所述目标命名实体词表中的所述命名实体词对预设文本数据进行筛选，得到包含有该命名实体词的目标文本数据；对所述目标文本数据进行语音合成处理，确定目标音频数据；基于所述目标音频数据确定目标训练数据；基于初始训练数据和所述目标训练数据对预先训练好的语音识别模型重新进行训练，得到目标语音识别模型，所述初始训练数据是用于训练得到所述预先训练好的语音识别模型的音频数据。本公开的语音识别模型的生成方法得到的目标语音识别模型，可以提高对命名实体词的识别准确率。

技术领域

本公开涉及语音识别技术领域，具体地，涉及一种语音识别模型的生成方法、识别方法、装置、介质及设备。

背景技术

随着深度学习技术的发展，语音识别模型的应用越来越广泛，相关技术中，语音识别模型通常采用端到端的训练方式得到，其对音频的识别效果受训练数据的影响。对于一些在训练数据中很少出现的词语，语音识别模型的识别效果较差，为此，如何提升语音识别模型对此类词语的识别准确度是亟需解决的技术问题。

发明内容

提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种语音识别模型的生成方法，包括：

获取目标命名实体词表，所述目标命名实体词表包括多个命名实体词；

基于所述目标命名实体词表中的所述命名实体词对预设文本数据进行筛选，得到包含有该命名实体词的目标文本数据；

对所述目标文本数据进行语音合成处理，确定目标音频数据；

基于所述目标音频数据确定目标训练数据；

基于初始训练数据和所述目标训练数据对预先训练好的语音识别模型重新进行训练，得到目标语音识别模型，所述初始训练数据是用于训练得到所述预先训练好的语音识别模型的音频数据。