[发明专利]一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法在审
申请号: | 202010651174.X | 申请日: | 2020-07-08 |
公开(公告)号: | CN111968629A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 胡章芳;蹇芳;唐珊珊;明子平;姜博文 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G10L15/02 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 transformer cnn dfsmn ctc 中文 语音 识别 方法 | ||
1.一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,包括以下步骤:
S1,输入语音信号,将语音信号进行预处理,结合低帧率LFR,先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征;
S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;
S3,将特征输入到深度前馈序列记忆神经网络DFSMN网络结构中,该网络结构一共有6层,模型深度为512维;
S4,将联结主义时间分类CTC作为声学模型的损失函数,采用宽度参数设置为10的集束搜索Beam search算法进行预测,使用自适应时刻估计Adam优化器进行优化,使得声学模型训练时使模型能达到更优;
S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;
S6,将Transformer和声学模型CNN-DFSMN-CTC卷积神经网络结合深度前馈序列神经网络及联结主义时间分类相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。
2.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S1具体包括:
S11、对语音信号进行预加重处理:
x′[t]=x[t]-αx[t-1]
其中,x[t]表示音频数据的第t个数,α表示预加重系数,x′[t]表示预加重后的音频数据,α的取值范围是(0.95,0.99);
S12,对预加重的语音信号分帧加窗,采用10ms的帧移对25ms的语音信号用汉明窗进行分析:
x′[n]=w[n]x[n]
其中,x[n]表示所取窗口(窗长为N)之内的第n个数,w[n]表示与之对应的权重,x′[n]表示分帧加窗后的语音信号;
S13,对加窗后的语音信号做离散傅里叶变换,计算方式为:
其中,N表示傅里叶变换的点数,k表示傅里叶变换的第k个频谱,x[n]表示分帧加窗后的语音信号,X[k]表示通过频域转换后的频域信号分量;
S14,提取Fbank特征,首先将一般频率转换成梅尔频率,转换方式为:
该转换由梅尔滤波器组实现完成,具体为将离散傅里叶输出的能量频谱通过三角滤波器组得到梅尔频谱,再将梅尔频谱的能量数值取对数,得到的结果就是Fbank特征。
3.根据权利要求2所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,α的值为0.97。
4.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S2将提取到的80维Fbank特征用CNN卷积网络进行卷积,具体包括:
利用卷积网络CNN对输入的Fbank特征进行卷积,CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同,增加CNN卷积网络层后有利于解决输入和输出的不定长问题。
5.根据权利要求4所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S3将特征信息输入到DFSMN结构中,DFSMN的参数公式为:
其中,Ptl表示投影层t时刻l层的特征、Vl表示向Ptl转换系数,表示更新后的Ptl,为对应的时不变系数,⊙表示为点乘,表示降维后的投影层特征,为对应的时不变系数,表示降维后的投影层特征,表示为t时刻l+1层的特征,Ul表示转向的系数,bl+1表示第l+1层的参数系数,f表示函数,表示低层Memory Block与高层Memory Block的连接形式,若将低层的Memory直接添加到高层的Memory Block中,则
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010651174.X/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法