[发明专利]基于CTCAttention架构的参考文本相关发音错误检测模型在审
申请号: | 202210462027.7 | 申请日: | 2022-04-28 |
公开(公告)号: | CN114863948A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 艾山·吾买尔;申云飞;早克热·卡德尔;刘庆庆;李晶;郭深;范聪 | 申请(专利权)人: | 新疆大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L19/18;G06N3/04;G06N3/08 |
代理公司: | 深圳国联专利代理事务所(特殊普通合伙) 44465 | 代理人: | 王天兴 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ctcattention 架构 参考 文本 相关 发音 错误 检测 模型 | ||
1.一种基于CTCAttention架构的参考文本相关发音错误检测模型,其特征在于:所述基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全连接层与解码器的输入,该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器,该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下:
将模型输入的Fbank等语音特征序列记为X=x1,…,xn′,音频编码器的输出记为则音频编码器可以表示为
hA=Audio Encoder(X)#(1)
式(1)中的输入X与输出hA单调对齐,如果音频编码器没有利用CNN等结构进行下采样,则有n×n′,即编码器的输入输出序列一一对应;否则根据音频编码器下采样的比例,X中的连续数帧对应到hA的一帧;
将模型输入的参考文本序列记为s=s1,…,sm,文本编码器隐状态序列记为文本编码器分数隐状态序列记为则文本编码器可以表示为
hT,hTS=TextEncoder(s)#(2)
hTS由hT线性变换而来,维度与hA相同。随后利用注意力机制,将双编码器输出的隐状态序列融合,即可得到融合后的隐状态序列h=h1,...,hn:
h=Attention(hA,hTS,hT)#(3)
其中hA、hTS、hT分别作为注意力计算时的查询向量(Query Vector)、键向量(KeyVector)和值向量(Value Vector)。随后,基于注意力解码器与CTC全连接层,对以上得到的隐状态进行基于自回归的CTC注意力联合解码,即可得到最终的音素识别结果序列
最终利用Needleman-Wunsch算法,对齐并比较参考文本音素序列Cref与识别结果得到发音错误检测结果;
式(1)中所述的音频编码器使用Transformer与Conformer结构。在使用Transformer与Conformer结构时,与CNN-RNN结构同样在模型的输入端使用CNN层进行特征下采样,从而提升模型计算速度。音频编码器的输入X是80维的Fbank特征。音频编码器输出的隐状态序列hA中每一帧的维度就是音频编码器的模型维度为dAudioEnc,与注意力解码器的维度dDec均为256。此处音频编码器使用Transformer或者Conformer结构时,其层数均为6层;
式(2)中所述的文本编码器基于双向LSTM,实现全局信息建模,以下介绍其前向计算过程;
独热向量(One-hotVector)形式的参考文本音素序列s=s1,…,sm的维度较高、信息密度较低,利用音素嵌入层(Phoneme Embedding)即可将其映射为维度更低的稠密向量表示e=e1,...,em:
e=PhonemeEmbedding(s)#(5)
嵌入后ei的维度dTextEmb为64。随后使用维度dTextEnc为256的双向LSTM神经网络对e进行编码,得到文本编码器隐状态序列hT:
hT=BiLSTM(e)#(6)
由于使用了双向LSTM网络,hT中的每帧的维度是2dTextEnc=512,不一定与音频编码器隐状态的维度dAudioEnc相同。因为点乘注意力机制要求查询向量与键向量的维度一致,所以此处使用一个线性变换改变hT的维度,得到文本编码器分数隐状态序列hTS[27]:
hTS=WKVhT#(7)
得到的hTS序列中每帧的维度是dAudioEnc,与相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210462027.7/1.html,转载请声明来源钻瓜专利网。