[发明专利]少量重口音数据下的端到端语音转文本模型优化方法有效

申请号：	202110129725.0	申请日：	2021-01-29
公开（公告）号：	CN112967720B	公开（公告）日：	2022-12-30
发明（设计）人：	赵雨嫣	申请（专利权）人：	南京迪港科技有限责任公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/06;G10L25/30;G10L19/00;G06F40/216;G06F40/284
代理公司：	南京思宸知识产权代理事务所(特殊普通合伙) 32548	代理人：	王真
地址：	210019 江苏省南京市建邺区西城路300号南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	少量口音数据端到端语音转文模型优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于，包括以下步骤：

S1，端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成；

编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectional Long-Short Term Memory,pBLSTM)构成；对于输入的声学特征序列X＝[x₁,x₂,...,x_n,...,x_N]，x_n为声学特征第n个位置的特征向量，将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征，通过公式(1)～(5)可计算得到LSTM对应的输出序列h＝(h₁,h₂,…,h_n,…,h_N)；

f_n＝σ(W_fx_n+U_fh_n-1+b_f) (1)

i_n＝σ(W_ix_n+U_ih_n-1+b_i) (2)

o_n＝σ(W_ox_n+U_oh_n-1+b_o) (3)

其中，f_n，i_n，o_n和c_n分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量，σ是Sigmoid激活函数，W_f和U_f、W_i和U_i、W_o和U_o、W_c和U_c分别是输入门、遗忘门、输出门和记忆单元的权重矩阵；b_f、b_i、b_o、b_c分别是输入门、遗忘门、输出门和记忆单元的偏置向量；x_n为第n个时间步的输入特征；h_n-1为第n-1个时间步的输出特征；tanh是激活函数；为哈达玛(Hadamard)积运算符号；

在LAS的编码器中，使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模，其形式化表示如公式(6)所示；

同时使用非线性激活可以得到最终的隐向量N个时间步的输出序列共同组成上下文相关的高层语义特征

在BLSTM层之后堆叠了三层pBLSTM层，pBLSTM层的计算方式如公式(7)所示；

所述BLSTM的隐向量表征分别来自正向和反向LSTM使用和表示，每层LSTM的隐藏层节点数为512；MLP为带有Softmax激活函数的全连接神经网络，其输出是建模单元的后验概率；

由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的；因此，引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习，从而提升模型推理的准确率；对于解码器输出的中间层语义特征H＝(h₁,h₂,...,h_u,...,h_U)，注意力层首先计算序列中第i个时间步输出特征H对应的权重α_i,u，计算方式如公式(8)～(9)所示；

所述exp为以自然常数e为底的指数函数，φ、为带有可训练参数的全连接神经网络；

上下文依赖的语义特征c_i是输入序列的加权之和，是对一段语音整体语义的表征，其加权求和的方法如公式(10)所示；

解码器网络由两层各包含512个神经节点的单向LSTM网络构成，其形式化表示如公式(11)～(12)所示；

s_i＝LSTM(s_i-1,y_i-1,c_i-1) (11)

P(y_i|x,y_＜i)＝MLP(s_i,c_i) (12)；

S2，常用大规模标准普通话语音模型训练；本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练，其目标函数如公式(13)所示；

其中，θ_e、θ_a、θ_d分别为LAS的编码器模块、注意力模块、解码器模块的模型参数；表示第i个时间步之前时间步字符的真实标记；

S3，少量重口音模型优化；在获得大规模普通话语音识别模型后，使用少量重口音语音数据对其进行优化；首先，冻结模型中编码器模块的参数；然后，使用少量的重口音语音数据对注意力模块和解码器模块进行微调；通过少量的重口音数据即可完成模型对重口音语音特征的适应，从而能够有效提升端到端语音模型对重口音语音的转写准确率；与所述步骤S2相同，重口音模型优化同样采用端到端的优化方式，其形式化表示如公式(14)所示；

S4，重口音模型解码和重打分；由于基于贪心的解码策略每次都在当前位置直接取最优路径，不能保证生成整个序列的概率是最优的；此外，在实际的应用中，词表一般都很大，在有限的搜索时间内无法完成所有可能路径的解码搜索；因此，在实际的应用中，一般采用束搜索(Beam Search)的方法进行语音解码；同时，为了引入语音模型对解码结果进行校正，引入了语言模型对搜索出的路径进行重打分，其形式化表达如公式(15)所示；

所述|y|_c表示字符个数；logP_LM(y)表示语言模型分数；λ表示语言模型分数权重，可由验证集确定；实际应用中的解码搜索采用Beam数为32的束搜索，语言模型分数权重λ为0.008。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京迪港科技有限责任公司，未经南京迪港科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110129725.0/1.html，转载请声明来源钻瓜专利网。

上一篇：扰动敏感地层超小净距大断面群洞隧道马头门施工方法
下一篇：一种整经机压辊系统及其操作方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]少量重口音数据下的端到端语音转文本模型优化方法有效

专利文献下载