[发明专利]语音识别方法、装置、电子设备在审
申请号: | 202110552936.5 | 申请日: | 2021-05-20 |
公开(公告)号: | CN115376515A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 丁科;向鸿雨;万广鲁 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G10L15/32 | 分类号: | G10L15/32;G10L15/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 | ||
本申请公开了一种语音识别方法,属于计算机技术领域,有助于提升语音识别的效率。所述方法包括:通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;通过流式模型的解码模块,对所述第一隐层向量表示进行解码,确定实时获取的语音片段对应的实时识别结果;通过预先训练的非流式模型,基于实时获取的语音片段所属语音输入中各时刻获取的语音片段的第一隐层向量表示,对实时识别结果进行重打分,确定实时识别结果对应所语音输入整体的准确度评分。
技术领域
本申请实施例涉及计算机技术领域,特别是涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。
背景技术
端到端语音识别技术是一种重要的语音识别技术,在许多场景下取得了比传统语音识别方案更好的识别效果。例如,在设备端等一些应用场景(如语音搜索、语音输入法)中,需要对语音数据进行流式的识别,即用户一边说话,一边返回识别结果,应用流式端到端的语音识别技术即可实现对输入语音的实时识别。为了提高流式端到端语音识别技术的性能,现有技术中通常采用两遍编解码的方案,即先使用一个流式端到端模型进行第一遍编解码,得到得分最高的n个候选识别结果,然后使用另一个非流式的端到端模型对n个候选识别结果进行重打分,这是第二遍编解码。现有技术中采用的两遍编解码的方案至少存在以下缺陷:第一遍编解码采用的流式解码模型和第二遍编解码采用的非流式解码模型是两个不同的模型,需要对输入语音执行两遍编码和解码,语音识别运算量大,效率低。
可见,现有技术中的语音识别方法还需要改进。
发明内容
本申请实施例提供一种语音识别方法,有助于提升语音识别的效率。
第一方面,本申请实施例提供了一种语音识别方法,包括:
通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;
通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果;
通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分;其中,所述非流式模型共享所述流式模型的模型参数。
第二方面,本申请实施例提供了一种语音识别装置,包括:
流式编码模块,用于通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;
流式解码模块,用于通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果;
识别结果重打分模块,用于通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分;其中,所述非流式模型共享所述流式模型的模型参数。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的语音识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的语音识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110552936.5/2.html,转载请声明来源钻瓜专利网。