[发明专利]语音识别模型训练方法、语音识别方法及相关装置在审
申请号: | 202010858518.4 | 申请日: | 2020-08-24 |
公开(公告)号: | CN112017643A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 唐浩雨 | 申请(专利权)人: | 广州市百果园信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/183 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511402 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 训练 方法 相关 装置 | ||
本发明实施例公开了一种语音识别模型训练方法、语音识别方法及相关装置,训练方法包括:获取训练语音和语音文本;合并字典和词典生成混合词典;采用字典对语音文本字编码得到字训练数据;根据混合词典对语音文本语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据;依次采用字训练数据、词义分词训练数据和随机分词训练数据训练语音识别模型。实现了语音文本可对应多种词训练数据,满足词训练所需的大量词训练数据,先后通过字训练数据和词训练数据来训练语音识别模型,使得语音识别模型既具备字建模良好的时序效果,又具备词建模良好的语义识别效果,再者,词训练数据包含随机分词训练数据,可以提高语音中不规范口语的识别率。
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质。
背景技术
在直播平台中,常常需要对大量直播间主播的内容进行监管,监管对象包括图像和语音,直播中的语音主要来源于主播说话所形成的语音。对于语音内容的监管,通常是将语音识别为文本,然后对文本进行甄别。
在文本甄别过程中,关键词一般词的形式而不是单独的字,语音识别的准确度对后续文本甄别至关重要。然而,现阶段端到端语音识别中,深度神经网络大多以字为识别单位建模(字建模单元),即一个发音识别为一个字来生成识别文本。如对于“我去北京长城”的语音,在语音识别过程中,已经识别出“我去北京长”,对最后的“城”字识别的时候可能错误定位到了相似发音的“成”、“程”、“乘”上,从而后续文本甄别时无法准确定位到“长城”这个关键词上,即字建模对于整句识别在时序上有效果,但对于关键词的识别效果较差,而如果使用词建模,神经网络以“我”“去”“北京”“长城”为单位进行词识别,当识别出“我去北京”之后,深度神经网络对“长城”进行识别,不会出现语义上不符合的词语,但是对于更大的词建模,例如,从字建模“长”
“城”到词建模“长城”,意味着深度神经网络需要更多的数据进行训练,如需要在样本中标注各个关键词的时序、上下文信息等。
综上所述,现有语音识别采用字建模无法准确定位关键词,而采用词建模需要大量数据来训练模型。
发明内容
本发明实施例提供一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质,以解决现有语音识别采用字建模无法准确定位关键词,而采用词建模需要大量数据来训练模型的问题。
第一方面,本发明实施例提供了一种语音识别模型训练方法,包括:
获取训练语音以及所述训练语音的语音文本;
合并预设字典和预设词典生成混合词典;
采用所述预设字典对所述语音文本进行字编码得到字训练数据;
根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据;
依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。
第二方面,本发明实施例提供了一种语音识别方法,包括:
获取待识别语音;
将所述待识别语音输入预先训练好的语音识别模型中得到编码序列;
根据预设混合词典对所述编码序列进行解码获得语音文本;
其中,所述语音识别模型由本发明第一方面所述的语音识别模型训练方法所述训练,所述混合词典为字典和词典合并所生成的词典。
第三方面,本发明实施例提供了一种语音识别模型训练装置,包括:
训练语音和语音文本获取模块,用于获取训练语音以及所述训练语音的语音文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园信息技术有限公司,未经广州市百果园信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010858518.4/2.html,转载请声明来源钻瓜专利网。