[发明专利]语音识别方法、装置、设备及存储介质有效
申请号: | 202010934093.0 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112037775B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 韩阳 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/28;G10L15/30;G10L15/05 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 存储 介质 | ||
1.一种语音识别方法,其特征在于,包括:
对输入语音进行分析,得到所述输入语音的语速信息;
根据所述语速信息,得到所述输入语音的估算字符数量;
根据所述估算字符数量,采用预先训练的语音识别模型,对所述输入语音进行识别处理,得到所述输入语音的识别结果;
其中,所述语音识别模型包括:编码器和解码器;所述根据所述估算字符数量,采用预先训练的语音识别模型,对所述输入语音进行识别处理,得到所述输入语音的识别结果,包括:
采用所述编码器对所述输入语音进行编码处理;
采用所述解码器对编码处理后的语音进行解码处理,并根据所述解码器的解码字符数量和所述估算字符数量,确定是否满足所述解码器的解码结束条件;
若满足所述解码结束条件,则确定所述满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语速信息,得到所述输入语音的估算字符数量,包括:
根据所述语速信息、以及所述输入语音的语音时长,得到所述输入语音的估算字符数量。
3.根据权利要求2所述的方法,其特征在于,所述语速信息为:所述语音时长内预设时间段的各个时间点的语速信息;所述根据所述语速信息、以及所述输入语音的语音时长,得到所述输入语音的估算字符数量,包括:
根据所述各个时间点的语速信息,确定所述预设时间段内的平均语速信息作为所述输入语音在所述语音时长内的平均语速信息;
根据所述平均语速信息、以及所述语音时长,得到所述输入语音的估算字符数量。
4.根据权利要求1所述的方法,其特征在于,所述采用所述解码器对编码处理后的语音进行解码处理,并根据所述解码器的解码字符数量和所述估算字符数量,确定是否满足所述解码器的解码结束条件,包括:
采用所述解码器对编码处理后的语音中的字符进行解码处理,得到所述字符的至少一个解码路径,每个解码路径为包括至少一个识别字符的识别结果;
根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重,得到所述每个解码路径的结束指标;
确定所述至少一个解码路径中是否存在满足解码结束指标阈值的解码路径;
若是,则确定满足所述解码器的解码结束条件;
满足所述解码结束条件时的解码处理后的结果为:满足解码结束指标阈值的解码路径中结束指标最高的目标解码路径。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重,得到所述每个解码路径的结束指标,包括:
根据所述每个解码路径的字符数量、所述估算字符数量,得到所述每个解码路径的第一指标;
根据所述每个解码路径的得分权重,得到所述每个解码路径的第二指标;
根据所述第一指标和所述第二指标,得到所述解码结束指标。
6.根据权利要求1所述的方法,其特征在于,所述根据所述估算字符数量,采用预先训练的语音识别模型,对所述输入语音进行识别处理,得到所述输入语音的识别结果,还包括:
若不满足所述解码结束条件,则继续采用所述解码器对所述编码处理后的语音进行编码处理,直至满足所述解码结束条件,确定满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010934093.0/1.html,转载请声明来源钻瓜专利网。