[发明专利]置信度校正及其模型训练方法、装置、设备及存储介质有效
申请号: | 202010060233.6 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111326148B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 谷悦;杨嵩;袁军峰;刘子韬 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 置信 校正 及其 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种置信度校正模型训练方法,其特征在于,包括:
获取多个训练样本,其中,每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度;
针对每个训练样本,基于其包括的识别文本和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别;
将每个训练样本的音频样本和识别文本作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练基于神经网络的置信度校正模型;
其中,所述针对每个训练样本,基于其包括的识别文本和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别,包括:
确定每个训练样本的标注文本;
根据每个训练样本包括的识别文本和该训练样本的标注文本,确定该识别文本的错误率;
基于该识别文本的错误率和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别。
2.根据权利要求1所述的方法,其特征在于,所述多个置信度校正类别通过以下方式确定:
确定针对识别文本的至少一个错误率阈值和至少一个置信度阈值;
确定所述至少一个错误率阈值形成的多个错误率阈值区间和至少一个置信度阈值形成的多个置信度阈值区间;
通过组合所述多个错误率阈值区间和所述多个置信度阈值区间,确定所述多个置信度校正类别。
3.根据权利要求2所述的方法,其特征在于,所述基于该识别文本的错误率和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别,包括:
从所述多个错误率阈值区间中,确定该识别文本的错误率所在的错误率阈值区间,并且从多个置信度阈值区间中,确定该识别文本的置信度所在的置信度阈值区间;
从所述多个置信度校正类别中,确定所在的错误率阈值区间和所在的置信度阈值区间的组合对应的置信度校正类别。
4.根据权利要求1所述的方法,其特征在于,所述根据每个训练样本包括的识别文本和该训练样本的标注文本,确定该识别文本的错误率,包括:
比较所述识别文本和所述标注文本,确定所述识别文本中的错字数;
确定所述识别文本的错字数和所述标注文本的总字数目,确定所述识别文本的错字率。
5.根据权利要求1所述的方法,其特征在于,所述将每个训练样本的音频样本和识别文本作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练基于神经网络的置信度校正模型,包括:
基于每个训练样本包括的音频样本和所述音频样本的识别文本中的至少一者,确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者;
利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者,确定该训练样本的置信度特征向量;
将每个训练样本的置信度特征向量作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练所述置信度校正模型的神经网络层。
6.根据权利要求5所述的方法,其特征在于,所述基于每个训练样本包括的音频样本和所述音频样本的识别文本中的至少一者,确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者,包括:
基于每个训练样本包括的音频样本和所述音频样本的识别文本,确定该训练样本的发音打分和非语音估计打分,并且基于所述音频样本的识别文本确定文本长度和困惑度打分,其中,
所述利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者,确定该训练样本的置信度特征向量,包括:
基于所述发音打分、困惑度打分、文本长度打分和非语音估计打分,构建所述置信度特征向量。
7.根据权利要求5所述的方法,其特征在于,所述音频样本包括语音部分和非语音部分,所述训练样本对应的非语音估计打分指示所述非语音部分的时长占所述音频样本的时长的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010060233.6/1.html,转载请声明来源钻瓜专利网。