[发明专利]语音识别方法、电子设备、程序产品和存储介质在审
申请号: | 202111611631.3 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114255754A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 颜瑞;徐延广;解传栋 | 申请(专利权)人: | 贝壳找房网(北京)信息技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/197 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 101500 北京市密云区经济开发区兴盛南路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 电子设备 程序 产品 存储 介质 | ||
1.一种语音识别方法,其特征在于,包括:
对待识别语音进行解码,得到第一解码结果,所述第一解码结果包括:多个第一词序列以及所述多个第一词序列中各词的开始时间和结束时间、声学概率和语言概率;
分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度;
基于所述多个第一词序列中置信度大于第一预设阈值的词,得到第二解码结果,所述第二解码结果包括:多个第二词序列以及所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率;
基于所述多个第二词序列与所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,所述语言识别结果包括:第一句子和所述第一句子的置信度,以便基于所述语音识别结果进行相应的动作。
2.根据权利要求1所述的方法,其特征在于,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度,包括:
分别以所述多个第一词序列中各第一词序列中的各词作为当前词,基于所述当前词的声学概率和语言概率,分别计算所述当前词的前向概率和后向概率;
基于所述当前词的前向概率、后向概率和语言概率,计算所述当前词在所在的第一词序列中的后验概率;
叠加所述多个第一词序列中所述当前词的后验概率,得到所述当前词的置信度。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述多个第二词序列与所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,包括:
分别基于所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,确定所述多个第二词序列中综合得分最高的第二词序列;
基于所述综合得分最高的第二词序列,得到第一句子;
基于所述第一句子中各词的置信度,得到所述第一句子的置信度。
4.根据权利要求1-3任一所述的方法,其特征在于,所述对待识别语音进行解码之前,还包括:
利用端点检测模型,对音频采集模块采集到的音频信号进行语音端点检测,得到至少一个语音活动段的起点和终点;
基于所述至少一个语音活动段的起点和终点,从所述音频信号中截取出所述至少一个语音活动段,以便分别以所述至少一个语音活动段中的各语音活动段作为所述待识别语音,执行所述对待识别语音进行解码,得到第一解码结果的操作。
5.根据权利要求4所述的方法,其特征在于,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度之后,还包括:
响应于所述多个第一词序列中各词的置信度均大于第二预设阈值且小于第三预设阈值,将所述待识别语音作为一个噪音样本加入噪音集,以用于训练所述端点检测模型,和/或作为前景噪音用于训练声学模型;其中,所述噪音集包括至少一个噪音样本,所述第二预设阈值小于所述第三预设阈值。
6.根据权利要求5所述的方法,其特征在于,还包括:
利用所述噪音集中的噪音样本训练所述端点检测模型。
7.根据权利要求5或6所述的方法,其特征在于,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度之后,还包括:
响应于所述多个第一词序列中各词的置信度均大于所述第三预设阈值且小于所述第一预设阈值,将所述待识别语音作为一个背景人声样本加入背景人声集,以作为背景人声噪音用于训练声学模型;其中,所述背景人声集包括至少一个背景人声样本,所述第三预设阈值小于所述第一预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房网(北京)信息技术有限公司,未经贝壳找房网(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111611631.3/1.html,转载请声明来源钻瓜专利网。