[发明专利]一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法在审

申请号：	202010651174.X	申请日：	2020-07-08
公开（公告）号：	CN111968629A	公开（公告）日：	2020-11-20
发明（设计）人：	胡章芳;蹇芳;唐珊珊;明子平;姜博文	申请（专利权）人：	重庆邮电大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/183;G10L15/02
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合 transformer cnn dfsmn ctc 中文语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明请求保护一种结合Transformer和CNN‑DFSMN‑CTC的中文语音识别方法，该方法包括步骤：S1，将语音信号进行预处理，提取80维的log mel Fbank特征；S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积；S3，将特征输入到DFSMN网络结构中；S4，将CTC loss作为声学模型的损失函数，采用Beam search算法进行预测，使用Adam优化器进行优化；S5，引入强语言模型Transformer迭代训练直至达到最优模型结构；S6，将Transformer和声学模型CNN‑DFSMN‑CTC相结合进行适配，在多数据集上进行验证，最终得到最优识别结果。本发明识别准确率更高，解码速度更快，在多个数据集上验证后字符错误率达到了11.8％，其中在Aidatatang数据集上最好达到了7.8％的字符错误率。

技术领域

本发明属于语音识别领域，特别是一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法。

背景技术

在语音识别发展领域，研究学者们致力于将语音信息尽量完整准确地转化成文本信息。语音识别的关键在于声学模型和语言模型两部分。在深度学习兴起应用到语音识别领域之前，声学模型已经有了非常成熟的模型体系，并且也有了被成功应用到实际系统中的案例。比如经典的高斯混合模型(Gaussian Mixed Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)等。神经网络和深度学习兴起以后，循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、注意力机制(Attention)等基于深度学习的声学模型和语言模型将此前各项基于传统声学模型和传统语言模型的识别案例错误率降低了一个级别。

在声学模型领域，Zhang,Shiliang等提出了新一代语音识别模型前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN),紧凑前馈序列记忆神经网络(Compact FSMN,CFSMN)以及深度前馈序列记忆神经网络(Deep FSMN,DFSMN)。其中FSMN是在标准的隐含层中使用类firfilter的内存块前馈神经网络，并在语言建模任务上的实验结果表明FSMN可以有效地学习长期历史；CFSMN是在FSMN基础上增加了投影矩阵，在语音识别交换机任务中，所提出的CFSMN结构可以使模型规模缩小60％，学习速度提高7倍以上，而在基于框架级交叉熵准则的训练和基于mini的序列训练方面，该模型仍能显著优于目前流行的双向LSTMs；而DFSMN在CFSMN的基础上增加了跳跃连接(Skip Connection),在中文语音识别任务上达到了85％的识别准确率。在语言模型领域中，A Vaswani等提出了基于注意力机制的新模型Transformer，并在英语数据集上进行了验证，结果显示比Attention模型效果更好；Zhou Shiyu等研究了将音节和音素作为Transformer模型的建模单元，在序列到序列语音识别系统上进行实验验证并得出基于音节的Transformer模型优于基于ci音素的对应模型，且与基于CTC-attention的联合编解码网络的字符错误率不相上下；DongLinhao等在Transformer模型上针对训练速度慢提出改进方法，经WSJ数据集实验验证后得到WER为10.9％,训练速度也得到了明显提升。但是Transformer作为语言模型，在自然语言处理中被大量使用，却没有被应用于语音识别中。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种可获得较高识别率、解码速度更快的基于CNN-DFSMN-CTC为声学模型，Transformer为语言模型的语音识别方法。本发明的技术方案如下：

一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010651174.X/2.html，转载请声明来源钻瓜专利网。

上一篇：基于磁巴克豪森噪声的平面应力确定方法及装置
下一篇：基于制糖滤泥原料的可再生桉树育苗基质及制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法在审

专利文献下载