[发明专利]一种发音评测方法、装置、电子设备和存储介质有效
申请号: | 202110421831.6 | 申请日: | 2021-04-20 |
公开(公告)号: | CN112992184B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 郭立钊;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/03 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 安伟 |
地址: | 100089 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发音 评测 方法 装置 电子设备 存储 介质 | ||
1.一种发音评测方法,其特征在于,包括:
获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值,其中,所述发音音频为基于参考文本的音频数据,所述第二音素状态序列不受所述参考文本的音素序列的约束;
对比所述第一音素状态序列和所述第二音素状态序列,得到所述发音音频的平均帧错误率;
在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时,对所述发音音频的GOP分值进行降分校正,得到最终评测分值;
获取发音音频的GOP分值,包括:
基于所述第一音素状态序列和所述第二音素状态序列,采用GOP算法对所述参考文本中每个音素的发音情况进行打分,得到每个音素的GOP分值;
基于所述每个音素的GOP分值确定所述发音音频的GOP分值;
对比所述第一音素状态序列和所述第二音素状态序列,得到所述发音音频的平均帧错误率,包括:
对比所述第一音素状态序列和所述第二音素状态序列中各对应帧的音素,确定所述第二音素状态序列中音素匹配错误的帧数,其中,所述匹配错误包括删除错误、插入错误和替换错误;
将所述匹配错误的帧数与所述发音音频的总帧数之比作为所述平均帧错误率。
2.根据权利要求1所述的发音评测方法,其特征在于,获取强制对齐下的第一音素状态序列,包括:
获取所述发音音频和对应的参考文本;
提取所述发音音频的语音特征序列;
基于预设声学模型以及所述语音特征序列,将所述参考文本和所述发音音频进行强制对齐,计算得到所述第一音素状态序列。
3.根据权利要求2所述的发音评测方法,其特征在于,获取自由识别下的第二音素状态序列,包括:
基于所述语音特征序列,采用语音识别模型计算得到所述第二音素状态序列。
4.根据权利要求1所述的发音评测方法,其特征在于,对所述发音音频的GOP分值进行降分校正,得到最终评测分值,包括:
将所述发音音频的GOP分值与预设惩罚因子相乘,得到所述最终评测分值,其中,所述预设惩罚因子大于0且小于1,在所述参考分段一定的情况下,所述预设惩罚因子与所述发音音频的GOP分值负相关。
5.根据权利要求1所述的发音评测方法,其特征在于,所述方法还包括:
判断所述发音音频的GOP分值是否高于所述平均帧错误率对应的参考分段;
判断所述发音音频的GOP分值是否高于所述平均帧错误率对应的参考分段,包括:
基于预先设置的帧错误率与分段的对应关系,确定所述平均帧错误率对应的参考分段;
如果所述发音音频的GOP分值大于所述参考分段的最大值,则所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段;
或者,判断所述发音音频的GOP分值是否高于所述平均帧错误率对应的参考分段,包括:
确定所述发音音频的GOP分值所属的目标分段;
基于预先设置的帧错误率与分段的对应关系,确定所述目标分段对应的目标平均帧错误率;
如果所述目标平均帧错误率小于所述平均帧错误率,则所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110421831.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:托盘的双层模压装置及其使用方法
- 下一篇:一种天线结构与相控阵天线