[发明专利]发音偏误检测方法、装置及存储介质有效
申请号: | 202110667154.6 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113327595B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 张劲松;彭霖铠;付凯奇;解焱陆;柯登峰 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/16;G10L15/187;G10L25/30;G10L25/51 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发音 检测 方法 装置 存储 介质 | ||
1.一种基于语音预训练模型的发音偏误检测方法,其特征在于,包括:
构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;
在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;
利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息;
其中,所述构建语音预训练模型,包括:
构建语音识别模块,该模块包括编码器、上下文处理器和量化器,所述编码器用于将语音信号编码成隐向量,所述上下文处理器用于在当前音段上重新考虑整条语音上来自其他音段的信息以生成上下文相关的音段表示,所述量化器用于将生成的所述音段表示规范到有限的空间内。
2.根据权利要求1所述的发音偏误检测方法,其特征在于,所述利用所述发音偏误检测模型对学习者的语音进行检测包括:
输出一个关于所述学习者的语音的音素概率序列;
将所述音素概率序列解码成音素序列,并将所述音素序列和相应的参考文本进行对比,以获得发音偏误信息;或者,基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
3.根据权利要求1所述的发音偏误检测方法,其特征在于,所述在语音预训练模型上添加一层随机初始化的全连接层包括:将一个全连接层添加到所述上下文处理器中的Transformer模块上以构建微调预训练模型。
4.根据权利要求3所述的发音偏误检测方法,其特征在于,所述使用带标注的发音偏误数据对所述微调预训练模型进行训练包括:
在训练最初的预置次数中,只更新所述全连接层,编码器和上下文处理器不进行参数更新;
在所述预置次数之后的训练中,进行全模型参数更新。
5.根据权利要求4所述的发音偏误检测方法,其特征在于,采用adam优化器,训练时长为48小时。
6.根据权利要求1所述的发音偏误检测方法,其特征在于,所述预训练使用的损失函数为:
其对应的相似度函数sim为:
sim(a,b)=aTb/||a||||b||
其中ct为当前音段对应的上下文表示,qt为量化向量表示,为包含正确量化向量的多个干扰项,K为归一化因子,t是当前音段对应的时间,m是被遮蔽的隐向量,Qt为所有量化向量表示集合。
7.一种基于语音预训练模型的发音偏误检测装置,其特征在于,包括语音识别模块和序列对齐模块,
所述语音识别模块包括编码器、上下文处理器、量化器以及全连接层,所述编码器、上下文处理器和量化器用于构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练,在预训练后的所述语音预训练模型上添加一层随机初始化的全连接层,以得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练以得到发音偏误检测模型,利用所述发音偏误检测模型对学习者的语音进行检测,输出一个关于所述学习者的语音的音素概率序列,并将所述音素概率序列解码成音素序列;
所述序列对齐模块将所述音素序列和相应的参考文本进行对比,获得发音偏误信息。
8.一种基于语音预训练模型的发音偏误检测装置,其特征在于,包括语音识别模块和发音置信分数模块,
所述语音识别模块包括编码器、上下文处理器、量化器以及全连接层,所述编码器、上下文处理器和量化器用于构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练,在预训练后的所述语音预训练模型上添加一层随机初始化的全连接层,以得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练以得到发音偏误检测模型,利用所述发音偏误检测模型对学习者的语音进行检测,输出一个关于所述学习者的语音的音素概率序列;
所述发音置信分数模块基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6任意一项所述的发音偏误检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667154.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:空调系统
- 下一篇:一种露天矿边坡内采空区动力失稳破坏机理试验方法