[发明专利]一种基于残差门控循环单元的语音识别方法有效
申请号: | 201910198058.4 | 申请日: | 2019-03-15 |
公开(公告)号: | CN109801621B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 孙水发;张忠豪;吕科;崔文超;但志平;董方敏 | 申请(专利权)人: | 三峡大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14;G10L15/16 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 443002*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 门控 循环 单元 语音 识别 方法 | ||
1.一种基于残差门控循环单元的语音识别方法,其特征在于,包括以下步骤:
步骤1,提取数据的特征值;
步骤2,将提取好的特征值做均值方差归一化以及差分处理;
步骤3,使用经过步骤2处理好的特征值训练高斯混合隐马尔科夫模型,得到训练好的三音素的高斯隐马尔科夫模型;
步骤4,建立残差门控循环单元的循环神经网络结构;
步骤5,设置残差门控循环神经网络的全连接层以及分类层;
步骤6,设置残差门控循环神经网络权重初始化方式为正交初始化;
步骤7,为残差门控循环神经网络设置批标准化;
步骤8,设置残差门控循环神经网络的超参数;
步骤9,配置残差门控循环神经网络的损失函数以及优化器;
步骤10,经过残差门控循环神经网络的迭代之后输出模型文件,得到声学模型;
步骤11,将声学模型和语言模型以及发声词典通过加权有限状态转换器静态编译组成搜索网络;
步骤2包括:
步骤2-1,均值方差归一化:均值方差归一化具体做法是使特征的均值为0,方差为1,其计算公式为:
式中,x为数据输入,即提取好的特征值;μ为归一化之前的均值;σ为归一化之前的标准差;Z为归一化之后的数据;
步骤2-2,根据如下公式对特征数据进行差分运算:
式中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数;k表示一阶导数的时间差,取1或2;将公式(2)的结果再代入公式(2)则得到二阶差分的参数;
步骤3包括:
步骤3-1,高斯混合模型P(y|θ)公式为:
式中,y是特征分布,也就是观测数据;是第i个高斯的方差;θ为(μ,σ2),θi为第i个高斯;αi是第i个高斯的混合参数;N为高斯分布的数量;μi为第i个高斯的均值;
步骤3-2,对于高斯混合模型,使用期望最大化算法来计算高斯混合模型中每个高斯的均值、方差以及混合参数,同时结合维特比算法得到特征与音素的帧级别对齐信息,从而得到单音素的高斯混合隐马尔科夫模型,再通过高斯分裂以及期望最大化算法得到三音素的高斯混合隐马尔科夫模型,同时结合对齐处理得到三音素的帧对齐标签;
步骤4包括如下步骤:
步骤4-1,建立残差门控循环神经网络算法的前向算法:首先建立重置门和更新门,设zt和rt分别表示更新门向量和重置门向量,xt为当前的输入,ht-1为前时刻帧的输入当前时刻的状态向量,W与U为模型参数也就是权重向量,b为偏置向量;更新门向量和重置门公式如下:
zt=σ(netz),
netz=Wzxt+Uzht-1+bz,
rt=σ(netr),
netr=Wrxt+Urht-1+br,
式中,netz为更新门未激活值;netr为重置门未激活值;Wz与Uz为更新门权重;bz为更新门偏置向量;Wr与Ur为重置门权重;br为重置门偏置向量,σ为sigmoid激活函数,sigmoid激活函数公式如下:
式中,x为函数输入;e为自然常数;
步骤4-2,使用如下残差门控循环单元的候选隐状态公式:
式中,at为候选隐状态值;为上一层未激活的候选隐状态值;neta为当前层未激活值的候选隐状态,若neta与维度不匹配时需要乘以维度匹配矩阵W1避免维度不一致;Ua与Wa为候选隐状态的权重;ba为偏置向量;为激活函数,这里用线性整流函数ReLU作为激活函数,ReLU的公式为:
式中,x为函数输入值;
步骤4-3,最后构建单元的隐状态:
ht=(1-zt)⊙ht-1+zt⊙at
式中,ht为隐状态输出值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910198058.4/1.html,转载请声明来源钻瓜专利网。