[发明专利]一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法在审
申请号: | 202010651174.X | 申请日: | 2020-07-08 |
公开(公告)号: | CN111968629A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 胡章芳;蹇芳;唐珊珊;明子平;姜博文 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G10L15/02 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 transformer cnn dfsmn ctc 中文 语音 识别 方法 | ||
本发明请求保护一种结合Transformer和CNN‑DFSMN‑CTC的中文语音识别方法,该方法包括步骤:S1,将语音信号进行预处理,提取80维的log mel Fbank特征;S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;S3,将特征输入到DFSMN网络结构中;S4,将CTC loss作为声学模型的损失函数,采用Beam search算法进行预测,使用Adam优化器进行优化;S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;S6,将Transformer和声学模型CNN‑DFSMN‑CTC相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。本发明识别准确率更高,解码速度更快,在多个数据集上验证后字符错误率达到了11.8%,其中在Aidatatang数据集上最好达到了7.8%的字符错误率。
技术领域
本发明属于语音识别领域,特别是一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法。
背景技术
在语音识别发展领域,研究学者们致力于将语音信息尽量完整准确地转化成文本信息。语音识别的关键在于声学模型和语言模型两部分。在深度学习兴起应用到语音识别领域之前,声学模型已经有了非常成熟的模型体系,并且也有了被成功应用到实际系统中的案例。比如经典的高斯混合模型(Gaussian Mixed Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)等。神经网络和深度学习兴起以后,循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、注意力机制(Attention)等基于深度学习的声学模型和语言模型将此前各项基于传统声学模型和传统语言模型的识别案例错误率降低了一个级别。
在声学模型领域,Zhang,Shiliang等提出了新一代语音识别模型前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN),紧凑前馈序列记忆神经网络(Compact FSMN,CFSMN)以及深度前馈序列记忆神经网络(Deep FSMN,DFSMN)。其中FSMN是在标准的隐含层中使用类firfilter的内存块前馈神经网络,并在语言建模任务上的实验结果表明FSMN可以有效地学习长期历史;CFSMN是在FSMN基础上增加了投影矩阵,在语音识别交换机任务中,所提出的CFSMN结构可以使模型规模缩小60%,学习速度提高7倍以上,而在基于框架级交叉熵准则的训练和基于mini的序列训练方面,该模型仍能显著优于目前流行的双向LSTMs;而DFSMN在CFSMN的基础上增加了跳跃连接(Skip Connection),在中文语音识别任务上达到了85%的识别准确率。在语言模型领域中,A Vaswani等提出了基于注意力机制的新模型Transformer,并在英语数据集上进行了验证,结果显示比Attention模型效果更好;Zhou Shiyu等研究了将音节和音素作为Transformer模型的建模单元,在序列到序列语音识别系统上进行实验验证并得出基于音节的Transformer模型优于基于ci音素的对应模型,且与基于CTC-attention的联合编解码网络的字符错误率不相上下;DongLinhao等在Transformer模型上针对训练速度慢提出改进方法,经WSJ数据集实验验证后得到WER为10.9%,训练速度也得到了明显提升。但是Transformer作为语言模型,在自然语言处理中被大量使用,却没有被应用于语音识别中。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种可获得较高识别率、解码速度更快的基于CNN-DFSMN-CTC为声学模型,Transformer为语言模型的语音识别方法。本发明的技术方案如下:
一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010651174.X/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法