[发明专利]一种语音识别方法及装置在审
申请号: | 202110889732.0 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113516967A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 李程帅;周全;徐涛 | 申请(专利权)人: | 青岛信芯微电子科技股份有限公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/32 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 任嘉文 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
本申请公开了一种语音识别方法及装置,用以提高语音识别效率,从而提高语音指令的响应速度。本申请提供的一种语音识别方法,包括:逐帧确定用户语音解码的最优路径;在用户语音截止之前,根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。
技术领域
本申请涉及信息技术领域,尤其涉及一种语音识别方法及装置。
背景技术
在命令词语音识别系统中,为了保证识别性能的准确性,语音识别的流式解码常会结合人声检测(VAD)模块来使用,即确保一段命令词从语音的起始到截止完整的说完后,再得到最终的结果。
例如,有关于空调的命令词“送风模式”,若说话人发出指令“送风模式”,按照现有技术,需要等到说话人“送风模式”说完再输出识别结果,所谓说完,例如:用连续3帧的静音,作为语音截止的判断条件,否则“送风”可能会与短指令“中风”发生混淆而导致误识别。也就是说,现有技术需要等待语音指令的截止,而这必然会带来延时,例如:用连续3帧的静音,作为语音截止的判断条件,便带来了至少3帧的延时,即用户语音指令响应速度慢,影响用户体验。
发明内容
本申请实施例提供了一种语音识别方法及装置,用以提高语音识别效率,从而提高语音指令的响应速度。
本申请实施例提供的一种语音识别方法包括:
逐帧确定用户语音解码的最优路径;
在用户语音截止之前,根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。
通过该方法,逐帧确定用户语音解码的最优路径;在用户语音截止之前,根据当前最优路径的置信度确定是否输出用户语音对应的识别结果,从而提高了语音识别效率,提高了语音指令的响应速度。
可选地,根据当前最优路径的置信度确定是否输出用户语音对应的识别结果,具体包括:
将当前最优路径的代价值与预设阈值进行比较,根据比较结果确定是否输出用户语音对应的识别结果;
或者,比较当前最优路径与其他路径的距离,根据比较结果确定是否输出用户语音对应的识别结果。
可选地,在用户语音截止之前,若没有输出用户语音对应的识别结果,则该方法还包括:
若当前最优路径的代价值小于预设的第一阈值,并且用户语音截止,则输出用户语音对应的识别结果。
可选地,在用户语音截止之前,若当前最优路径的代价值小于预设的第二阈值,则输出用户语音对应的识别结果,其中,所述第二阈值小于所述第一阈值。
可选地,当到达用户语音的最终状态时,若当前最优路径的代价值小于预设的第二阈值,则输出用户语音对应的识别结果。
其中,具体如何判断是否到达用户语音的最终状态,属于现有技术。
可选地,所述当前最优路径的代价值,为当前最优路径的平均最优代价值,或者,为当前最优路径的平均代价值。
可选地,当到达用户语音的最终状态后的预设帧数,确定用户语音截止。
可选地,该方法还包括:
按照如下方式更新所述预设帧数:
N’=(当前最优路径的平均代价值/第一阈值)×N
其中,N为预设帧数;
将对N’取整所得到的值,作为更新后的预设帧数;
当到达用户语音的最终状态后的更新后的预设帧数,确定用户语音截止。
本申请另一实施例提供的一种语音识别装置,包括:
存储器,用于存储程序指令;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛信芯微电子科技股份有限公司,未经青岛信芯微电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110889732.0/2.html,转载请声明来源钻瓜专利网。