[发明专利]一种发音评测方法、装置、电子设备及存储介质有效
申请号: | 201911316317.5 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111199750B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 贺宇;佟子健;茹立云 | 申请(专利权)人: | 北京葡萄智学科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L25/03 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发音 评测 方法 装置 电子设备 存储 介质 | ||
1.一种发音评测方法,其特征在于,所述方法包括:
获取待评测的发音音频和待评测的发音音频对应的文本;
执行发音评测操作,得到待评测的发音音频的发音评测结果,发音评测操作包括:
生成所述待评测的发音音频的发音音频特征向量,以及生成待评测的发音音频对应的文本的文本特征向量;
将所述发音音频特征向量编码为经过编码的发音音频特征向量,以及将所述文本特征向量编码为经过编码的文本特征向量,其中,经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间;其中,所述经过编码的发音音频特征向量为通过第一深度神经网络对所述发音音频特征向量进行编码后获得的发音音频特征向量,以及,所述经过编码的文本特征向量为通过第二深度神经网络对所述文本特征向量进行编码后获得的文本特征向量;
计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度;
基于所述相似度,生成待评测的发音音频的发音评测结果,以及输出所述待评测的发音音频的发音评测结果。
2.根据权利要求1所述的方法,其特征在于,执行发音评测操作,得到待评测的发音音频的发音评测结果包括:
利用发音评测模型执行发音评测操作,得到待评测的发音音频的发音评测结果,其中,发音评测模型被预先利用训练样本和训练样本的标注数据进行训练,训练样本包括:用于训练的发音音频、用于训练的发音音频对应的文本。
3.根据权利要求2所述的方法,其特征在于,对于每一个训练样本,训练样本的标注数据为以下之一:指示朗读用于训练的发音音频对应的文本的发音准确的数值、指示朗读用于训练的发音音频对应的文本的发音不准确的数值。
4.根据权利要求1-3之一所述的方法,其特征在于,将所述发音音频特征向量编码为经过编码的发音音频特征向量,以及将所述文本特征向量编码为经过编码的文本特征向量包括:
利用第一深度神经网络将所述发音音频特征向量编码为经过编码的发音音频特征向量,以及利用第二深度神经网络将所述文本特征向量编码为经过编码的文本特征向量。
5.根据权利要求1所述的方法,其特征在于,所述生成所述待评测的发音音频的发音音频特征向量包括:
提取所述待评测的发音音频中的每一帧的声学特征;
利用卷积神经网络对所述每一帧的声学特征进行编码,得到所述待评测的发音音频的发音音频特征向量。
6.根据权利要求5所述的方法,其特征在于,所述声学特征为FBank特征。
7.根据权利要求6所述的方法,其特征在于,所述卷积神经网络为VGG19网络。
8.根据权利要求1所述的方法,其特征在于,所述生成待评测的发音音频对应的文本的文本特征向量包括:
生成待评测的发音音频对应的文本中的每一个词的词向量;
利用双向长短期记忆网络对所述每一个词的词向量进行编码,得到待评测的发音音频对应的文本的文本特征向量。
9.根据权利要求1所述的方法,其特征在于,所述计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度包括:
计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的余弦距离;
将所述余弦距离作为所述相似度。
10.根据权利要求1所述的方法,其特征在于,基于所述相似度,生成待评测的发音音频的发音评测结果包括:
当所述相似度大于或等于相似度阈值时,生成指示发音准确的发音评测结果;
当所述相似度小于相似度阈值时,生成指示发音不准确的发音评测结果。
11.一种发音评测装置,其特征在于,所述装置包括:
获取单元,被配置为获取待评测的发音音频和待评测的发音音频对应的文本;
评测单元,被配置为执行发音评测操作,发音评测操作包括:生成所述待评测的发音音频的发音音频特征向量,以及生成待评测的发音音频对应的文本的文本特征向量;将所述发音音频特征向量编码为经过编码的发音音频特征向量,以及将所述文本特征向量编码为经过编码的文本特征向量,其中,经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间;其中,所述经过编码的发音音频特征向量为通过第一深度神经网络对所述发音音频特征向量进行编码后获得的发音音频特征向量,以及,所述经过编码的文本特征向量为通过第二深度神经网络对所述文本特征向量进行编码后获得的文本特征向量;计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度;基于所述相似度,生成待评测的发音音频的发音评测结果,以及输出所述待评测的发音音频的发音评测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京葡萄智学科技有限公司,未经北京葡萄智学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911316317.5/1.html,转载请声明来源钻瓜专利网。