[发明专利]语音识别方法、装置、介质及电子设备有效
申请号: | 202110738271.7 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113327599B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 董林昊;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曹寒梅 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 介质 电子设备 | ||
本公开涉及一种语音识别方法、装置、介质及电子设备,所述方法包括:对接收到的语音数据进行编码,获得所述语音数据对应的声学向量序列;根据所述声学向量序列和第一预测模型,获得所述语音数据对应的信息量序列和第一概率序列;根据所述声学向量序列和第二预测模型,获得第二概率序列;根据所述第一概率序列和所述第二概率序列,确定目标概率序列;根据所述目标概率序列,确定所述语音数据对应的目标文本。由此,可以基于训练过程中的多任务学习对应的多个预测模型分别输出的概率序列,确定用于语音识别的目标概率序列,可以基于训练过程中进行多任务学习积累的知识进行语音识别和解码,明显提升语音识别的准确度和效率,提升用户使用体验。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种语音识别方法、装置、介质及电子设备。
背景技术
随着深度学习的兴起,各种完全依赖于神经网络进行端到端建模的方法逐渐兴起。在进行语音识别时,由于输入的语音数据和输出的文本数据的长度不同,可以通过对齐算法进行序列对齐映射的方式进行语音识别。相关技术中,为了提高模型对语音识别的准确度,通常会采用多任务学习的方式对模型进行训练,然而在基于模型进行语音识别时,无法利用到训练过程中多任务学习积累的知识,基于该模型进行语音识别难以达到预计的准确度。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种语音识别方法,所述方法包括:
对接收到的语音数据进行编码,获得所述语音数据对应的声学向量序列,其中,所述声学向量序列包含所述语音数据的每一音频帧的声学向量;
根据所述声学向量序列和第一预测模型,获得所述语音数据对应的信息量序列和第一概率序列,其中,所述信息量序列包含每一所述音频帧的信息量,所述第一概率序列包含所述语音数据对应的每一预测字符的第一文本概率分布;
根据所述声学向量序列和第二预测模型,获得第二概率序列,其中,所述第二概率序列中包含每一所述音频帧的文本概率分布;
根据所述第一概率序列和所述第二概率序列,确定目标概率序列,其中,所述目标概率序列包含每一所述预测字符的目标文本概率分布;
根据所述目标概率序列,确定所述语音数据对应的目标文本。
可选地,所述根据所述声学向量序列和第一预测模型,获得所述语音数据对应的信息量序列和第一概率序列,包括:
将所述声学向量序列输入所述第一预测模型,获得所述信息量序列;
根据所述信息量序列对所述声学向量序列中所述音频帧的声学向量进行合并,获得字符声学向量序列,其中,所述字符声学向量序列包含每一所述预测字符对应的声学向量;
对所述字符声学向量序列进行解码,获得所述第一概率序列。
可选地,所述根据所述声学向量序列和第二预测模型,获得第二概率序列,包括:
将所述声学向量序列输入所述第二预测模型,获得每一所述音频帧的预测概率分布;
针对每一所述音频帧,将该音频帧的预测概率分布中对应于预设字符的概率删除,并对删除后所得的预测概率分布进行归一化,获得该音频帧的文本概率分布。
可选地,所述根据所述第一概率序列和所述第二概率序列,确定目标概率序列,包括:
根据所述信息量序列对所述第二概率序列中的所述音频帧的文本概率分布进行合并,获得第三概率序列,其中,第三概率序列包含每一所述预测字符的第二文本概率分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110738271.7/2.html,转载请声明来源钻瓜专利网。