[发明专利]少量重口音数据下的端到端语音转文本模型优化方法有效
申请号: | 202110129725.0 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112967720B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 赵雨嫣 | 申请(专利权)人: | 南京迪港科技有限责任公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L25/30;G10L19/00;G06F40/216;G06F40/284 |
代理公司: | 南京思宸知识产权代理事务所(特殊普通合伙) 32548 | 代理人: | 王真 |
地址: | 210019 江苏省南京市建邺区西城路300号南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 少量 口音 数据 端到端 语音 转文 模型 优化 方法 | ||
1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤:
S1,端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectional Long-Short Term Memory,pBLSTM)构成;对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);
fn=σ(Wfxn+Ufhn-1+bf) (1)
in=σ(Wixn+Uihn-1+bi) (2)
on=σ(Woxn+Uohn-1+bo) (3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
同时使用非线性激活可以得到最终的隐向量N个时间步的输出序列共同组成上下文相关的高层语义特征
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
所述BLSTM的隐向量表征分别来自正向和反向LSTM使用和表示,每层LSTM的隐藏层节点数为512;MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率;对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
所述exp为以自然常数e为底的指数函数,φ、为带有可训练参数的全连接神经网络;
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1) (11)
P(yi|x,y<i)=MLP(si,ci) (12);
S2,常用大规模标准普通话语音模型训练;本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;表示第i个时间步之前时间步字符的真实标记;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调;通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率;与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的;此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索;因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码;同时,为了引入语音模型对解码结果进行校正,引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定;实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京迪港科技有限责任公司,未经南京迪港科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110129725.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置