[发明专利]基于CTCAttention架构的参考文本相关发音错误检测模型在审
申请号: | 202210462027.7 | 申请日: | 2022-04-28 |
公开(公告)号: | CN114863948A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 艾山·吾买尔;申云飞;早克热·卡德尔;刘庆庆;李晶;郭深;范聪 | 申请(专利权)人: | 新疆大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L19/18;G06N3/04;G06N3/08 |
代理公司: | 深圳国联专利代理事务所(特殊普通合伙) 44465 | 代理人: | 王天兴 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ctcattention 架构 参考 文本 相关 发音 错误 检测 模型 | ||
本发明公开了一种基于CTCAttention架构的参考文本相关发音错误检测模型,涉及信息技术领域,该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行。在基于语音识别技术的发音错误检测框架中,待评测的音频首先被输入基于语音识别技术的音素识别模块,得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块,得到待评测语音的发音错误检测结果。在本文中,发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较,从而找到待评测音频中的发音错误。
技术领域
本发明涉及信息技术领域,特别涉及一种基于CTCAttention架构的参考文本相关发音错误检测模型。
背景技术
发音错误检测技术全称为发音错误检测与诊断技术,是使用计算机自动对语音音段层面的发音准确度进行评价的技术,也是计算机辅助语音训练技术的重要组成部分。在深度学习技术广泛运用到语音识别(ASR)及发音错误检测任务上前,基于传统语音识别技术与机器学习技术的发音错误检测方法已经得到了深入的研究与应用。在深度学习技术广泛运用于语音识别领域后,先后出现了多种基于深层神经网络(DNN)的语音识别模型。目前,面向普通话的发音错误检测公开研究主要集中在运用传统机器学习算法针对普通话的声韵母、声调及儿化音进行细粒度的评分。目前进行面向普通话的发音错误检测研究,主要的困难在于缺乏对应的公开数据集。相比于语音识别数据集,语音评测数据集由于需要专家标注,建设成本很高,故公开的语音评测数据集很少,很多时候研究者选择在私有的数据集上进行实验。现有针对深度学习技术在我国汉语普通话语音评测方面的研究还处于初步阶段,几乎没有与普通话水平测试相关的公开数据集,针对普通话口语评测的研究近年来也颇为罕见。从现有的面向普通话的发音错误检测研究来看,Zhang等人提出的基于CTC/Attention的端到端普通话发音错误检测模型没有考虑到使用参考文本信息,模型基于BiLSTM,而没有考虑使用Transformer等新的模型结构。Lo等提出的利用重复参考文本进行数据增广的发音错误检测模型让一个音频编码器与一个参考文本编码器共享一个解码器,这种思路仅将文本编码器用于数据增广,并没有将文本编码器与音频编码器的输出进行融合,模型于推理阶段时只使用音频编码器,因而并不能充分运用参考文本的信息。综上国内外在MDD任务中运用Transformer/Conformer结构的研究不多,同时尚未见到结合Transformer/Conformer结构、融合多编码器特征及CTC/Attention架构的MDD模型及相关研究。
发明内容
本发明所要解决的技术问题是提供一种基于CTCAttention架构的参考文本相关发音错误检测模型,建立了针对普通话水平测试短文朗读题型的普通话语音评测数据集PSC-Reading,在采用Transformer实现音频编码器时,相对于作为基线的CNN-RNN-CTC及CNN-RNN-CTC-Text-Dep发音错误检测模型获得了显著的性能提升。
为实现上述目的,本发明提供以下的技术方案:
该基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全连接层与解码器的输入,该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器,该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下:
将模型输入的Fbank等语音特征序列记为X=x1,…,xn′,音频编码器的输出记为则音频编码器可以表示为
hA=AudioEncoder(X)#(1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210462027.7/2.html,转载请声明来源钻瓜专利网。