[发明专利]语音识别方法、装置、介质及电子设备有效

申请号：	202110738271.7	申请日：	2021-06-30
公开（公告）号：	CN113327599B	公开（公告）日：	2023-06-02
发明（设计）人：	董林昊;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L15/26
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	曹寒梅
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音识别方法、装置、介质及电子设备，所述方法包括：对接收到的语音数据进行编码，获得所述语音数据对应的声学向量序列；根据所述声学向量序列和第一预测模型，获得所述语音数据对应的信息量序列和第一概率序列；根据所述声学向量序列和第二预测模型，获得第二概率序列；根据所述第一概率序列和所述第二概率序列，确定目标概率序列；根据所述目标概率序列，确定所述语音数据对应的目标文本。由此，可以基于训练过程中的多任务学习对应的多个预测模型分别输出的概率序列，确定用于语音识别的目标概率序列，可以基于训练过程中进行多任务学习积累的知识进行语音识别和解码，明显提升语音识别的准确度和效率，提升用户使用体验。

技术领域

本公开涉及计算机技术领域，具体地，涉及一种语音识别方法、装置、介质及电子设备。

背景技术

随着深度学习的兴起，各种完全依赖于神经网络进行端到端建模的方法逐渐兴起。在进行语音识别时，由于输入的语音数据和输出的文本数据的长度不同，可以通过对齐算法进行序列对齐映射的方式进行语音识别。相关技术中，为了提高模型对语音识别的准确度，通常会采用多任务学习的方式对模型进行训练，然而在基于模型进行语音识别时，无法利用到训练过程中多任务学习积累的知识，基于该模型进行语音识别难以达到预计的准确度。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种语音识别方法，所述方法包括：

对接收到的语音数据进行编码，获得所述语音数据对应的声学向量序列，其中，所述声学向量序列包含所述语音数据的每一音频帧的声学向量；

根据所述声学向量序列和第一预测模型，获得所述语音数据对应的信息量序列和第一概率序列，其中，所述信息量序列包含每一所述音频帧的信息量，所述第一概率序列包含所述语音数据对应的每一预测字符的第一文本概率分布；

根据所述声学向量序列和第二预测模型，获得第二概率序列，其中，所述第二概率序列中包含每一所述音频帧的文本概率分布；

根据所述第一概率序列和所述第二概率序列，确定目标概率序列，其中，所述目标概率序列包含每一所述预测字符的目标文本概率分布；

根据所述目标概率序列，确定所述语音数据对应的目标文本。

可选地，所述根据所述声学向量序列和第一预测模型，获得所述语音数据对应的信息量序列和第一概率序列，包括：

将所述声学向量序列输入所述第一预测模型，获得所述信息量序列；

根据所述信息量序列对所述声学向量序列中所述音频帧的声学向量进行合并，获得字符声学向量序列，其中，所述字符声学向量序列包含每一所述预测字符对应的声学向量；

对所述字符声学向量序列进行解码，获得所述第一概率序列。