[发明专利]语音识别模型训练方法、语音识别方法及相关装置在审

申请号：	202010858518.4	申请日：	2020-08-24
公开（公告）号：	CN112017643A	公开（公告）日：	2020-12-01
发明（设计）人：	唐浩雨	申请（专利权）人：	广州市百果园信息技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/183
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	511402 广东省广州市番***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别模型训练方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种语音识别模型训练方法、语音识别方法及相关装置，训练方法包括：获取训练语音和语音文本；合并字典和词典生成混合词典；采用字典对语音文本字编码得到字训练数据；根据混合词典对语音文本语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据；依次采用字训练数据、词义分词训练数据和随机分词训练数据训练语音识别模型。实现了语音文本可对应多种词训练数据，满足词训练所需的大量词训练数据，先后通过字训练数据和词训练数据来训练语音识别模型，使得语音识别模型既具备字建模良好的时序效果，又具备词建模良好的语义识别效果，再者，词训练数据包含随机分词训练数据，可以提高语音中不规范口语的识别率。

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质。

背景技术

在直播平台中，常常需要对大量直播间主播的内容进行监管，监管对象包括图像和语音，直播中的语音主要来源于主播说话所形成的语音。对于语音内容的监管，通常是将语音识别为文本，然后对文本进行甄别。

在文本甄别过程中，关键词一般词的形式而不是单独的字，语音识别的准确度对后续文本甄别至关重要。然而，现阶段端到端语音识别中，深度神经网络大多以字为识别单位建模(字建模单元)，即一个发音识别为一个字来生成识别文本。如对于“我去北京长城”的语音，在语音识别过程中，已经识别出“我去北京长”，对最后的“城”字识别的时候可能错误定位到了相似发音的“成”、“程”、“乘”上，从而后续文本甄别时无法准确定位到“长城”这个关键词上，即字建模对于整句识别在时序上有效果，但对于关键词的识别效果较差，而如果使用词建模，神经网络以“我”“去”“北京”“长城”为单位进行词识别，当识别出“我去北京”之后，深度神经网络对“长城”进行识别，不会出现语义上不符合的词语，但是对于更大的词建模，例如，从字建模“长”

“城”到词建模“长城”，意味着深度神经网络需要更多的数据进行训练，如需要在样本中标注各个关键词的时序、上下文信息等。

综上所述，现有语音识别采用字建模无法准确定位关键词，而采用词建模需要大量数据来训练模型。

发明内容

本发明实施例提供一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质，以解决现有语音识别采用字建模无法准确定位关键词，而采用词建模需要大量数据来训练模型的问题。

第一方面，本发明实施例提供了一种语音识别模型训练方法，包括：

获取训练语音以及所述训练语音的语音文本；

合并预设字典和预设词典生成混合词典；

采用所述预设字典对所述语音文本进行字编码得到字训练数据；

根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据；

依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。

第二方面，本发明实施例提供了一种语音识别方法，包括：

获取待识别语音；