[发明专利]一种发音评测方法、装置、电子设备及存储介质有效

申请号：	201911316317.5	申请日：	2019-12-18
公开（公告）号：	CN111199750B	公开（公告）日：	2022-10-28
发明（设计）人：	贺宇;佟子健;茹立云	申请（专利权）人：	北京葡萄智学科技有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/30;G10L25/03
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100080 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种发音评测方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种发音评测方法，其特征在于，所述方法包括：

获取待评测的发音音频和待评测的发音音频对应的文本；

执行发音评测操作，得到待评测的发音音频的发音评测结果，发音评测操作包括：

生成所述待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；

将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；其中，所述经过编码的发音音频特征向量为通过第一深度神经网络对所述发音音频特征向量进行编码后获得的发音音频特征向量，以及，所述经过编码的文本特征向量为通过第二深度神经网络对所述文本特征向量进行编码后获得的文本特征向量；

计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度；

基于所述相似度，生成待评测的发音音频的发音评测结果，以及输出所述待评测的发音音频的发音评测结果。

2.根据权利要求1所述的方法，其特征在于，执行发音评测操作，得到待评测的发音音频的发音评测结果包括：

利用发音评测模型执行发音评测操作，得到待评测的发音音频的发音评测结果，其中，发音评测模型被预先利用训练样本和训练样本的标注数据进行训练，训练样本包括：用于训练的发音音频、用于训练的发音音频对应的文本。

3.根据权利要求2所述的方法，其特征在于，对于每一个训练样本，训练样本的标注数据为以下之一：指示朗读用于训练的发音音频对应的文本的发音准确的数值、指示朗读用于训练的发音音频对应的文本的发音不准确的数值。

4.根据权利要求1－3之一所述的方法，其特征在于，将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量包括：

利用第一深度神经网络将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及利用第二深度神经网络将所述文本特征向量编码为经过编码的文本特征向量。

5.根据权利要求1所述的方法，其特征在于，所述生成所述待评测的发音音频的发音音频特征向量包括：

提取所述待评测的发音音频中的每一帧的声学特征；

利用卷积神经网络对所述每一帧的声学特征进行编码，得到所述待评测的发音音频的发音音频特征向量。

6.根据权利要求5所述的方法，其特征在于，所述声学特征为FBank特征。

7.根据权利要求6所述的方法，其特征在于，所述卷积神经网络为VGG19网络。

8.根据权利要求1所述的方法，其特征在于，所述生成待评测的发音音频对应的文本的文本特征向量包括：

生成待评测的发音音频对应的文本中的每一个词的词向量；

利用双向长短期记忆网络对所述每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

9.根据权利要求1所述的方法，其特征在于，所述计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度包括：

计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的余弦距离；

将所述余弦距离作为所述相似度。

10.根据权利要求1所述的方法，其特征在于，基于所述相似度，生成待评测的发音音频的发音评测结果包括：

当所述相似度大于或等于相似度阈值时，生成指示发音准确的发音评测结果；

当所述相似度小于相似度阈值时，生成指示发音不准确的发音评测结果。

11.一种发音评测装置，其特征在于，所述装置包括：

获取单元，被配置为获取待评测的发音音频和待评测的发音音频对应的文本；

评测单元，被配置为执行发音评测操作，发音评测操作包括：生成所述待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；其中，所述经过编码的发音音频特征向量为通过第一深度神经网络对所述发音音频特征向量进行编码后获得的发音音频特征向量，以及，所述经过编码的文本特征向量为通过第二深度神经网络对所述文本特征向量进行编码后获得的文本特征向量；计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度；基于所述相似度，生成待评测的发音音频的发音评测结果，以及输出所述待评测的发音音频的发音评测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京葡萄智学科技有限公司，未经北京葡萄智学科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911316317.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用户节能量确定方法及装置
下一篇：一种基于FPGA的分布式系统时钟同步控制器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种发音评测方法、装置、电子设备及存储介质有效

专利文献下载