[发明专利]一种流式语音识别方法、装置、设备及存储介质有效
申请号: | 201910414688.0 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110111775B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 朱绍明;唐立亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/18;G10L15/26;G10L19/00;G10L25/69 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 设备 存储 介质 | ||
本申请公开了一种流式语音识别方法,包括:获取待识别的语音信号;对所述语音信号进行特征提取,获得语音特征;通过解码器基于声学模型和语言模型,对所述语音特征进行解码得到N个候选识别结果以及各自对应的解码得分;根据所述N个候选识别结果各自对应的置信度确定置信度阈值,所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种;从所述N个候选识别结果中,筛选置信度大于所述置信度阈值的候选识别结果,生成目标候选识别结果集;根据所述目标候选识别结果集,确定所述语音信号的识别结果。如此,实现自适应输出最优实时结果,满足实时识别的业务需求,提高识别精度。本申请还公开了对应的装置、设备及介质。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种流式语音识别方法、装置、设备及存储介质。
背景技术
流式语音识别是指对音频进行流式识别,识别完成后就返回语音的文字内容,简单来说就是用户一边说话一边返回识别结果;如今,流式语音识别技术已经开始在同声传译、语音输入法等多种场景中得以应用发展。
在相关技术中,通过固定延迟的方式,将当前第一时刻实时识别结果暂不输出,而是通过固定的延迟时间后,再结合该延迟时间段内输入的语音确定上述第一时刻最终识别结果进行输出。
上述相关技术在实际应用中,由于输出识别结果总是在输入语音的时间基础上延迟固定的延迟时间,导致流式识别效果不能满足实时识别的业务需求,而且由于在识别过程中采用固定的延迟时间,导致识别精度不高。
发明内容
本申请提供了一种流式语音识别方法,其基于置信度阈值筛选后候选识别结果生成目标候选识别结果集,并基于该结果集确定识别结果,降低了识别结果的不确定性,提高了识别精度。本申请还提供了对应的装置、设备、介质及计算机程序产品。
有鉴于此,本申请第一方面提供了一种流式语音识别方法,所述方法包括:
获取待识别的语音信号;
对所述语音信号进行特征提取,获得语音特征;
通过解码器基于声学模型和语言模型,对所述语音特征进行解码得到N个候选识别结果以及所述N个候选识别结果各自对应的解码得分,所述N为大于1的整数;
根据所述N个候选识别结果各自对应的置信度确定置信度阈值,所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种;
从所述N个候选识别结果中,筛选置信度大于所述置信度阈值的候选识别结果,生成目标候选识别结果集;
根据所述目标候选识别结果集,确定所述语音信号的识别结果。
本申请第二方面提供一种流式语音识别装置,所述装置包括:
获取单元,用于获取待识别的语音信号;
特征提取单元,用于对所述语音信号进行特征提取,获得语音特征;
解码单元,用于通过解码器基于声学模型和语言模型,对所述语音特征进行解码得到N个候选识别结果以及所述N个候选识别结果各自对应的解码得分,所述N为大于1的整数;
置信度阈值确定单元,用于根据所述N个候选识别结果各自对应的置信度确定置信度阈值,所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种;
筛选单元,用于从所述N个候选识别结果中,筛选置信度大于所述置信度阈值的候选识别结果,生成目标候选识别结果集;
识别单元,用于根据所述目标候选识别结果集,确定所述语音信号的识别结果。
本申请第三方面提供一种服务器,所述服务器包括处理器以及存储器:
所述存储器用于存储计算机程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910414688.0/2.html,转载请声明来源钻瓜专利网。