[发明专利]一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法在审
申请号: | 202010651174.X | 申请日: | 2020-07-08 |
公开(公告)号: | CN111968629A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 胡章芳;蹇芳;唐珊珊;明子平;姜博文 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G10L15/02 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种结合Transformer和CNN‑DFSMN‑CTC的中文语音识别方法,该方法包括步骤:S1,将语音信号进行预处理,提取80维的log mel Fbank特征;S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;S3,将特征输入到DFSMN网络结构中;S4,将CTC loss作为声学模型的损失函数,采用Beam search算法进行预测,使用Adam优化器进行优化;S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;S6,将Transformer和声学模型CNN‑DFSMN‑CTC相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。本发明识别准确率更高,解码速度更快,在多个数据集上验证后字符错误率达到了11.8%,其中在Aidatatang数据集上最好达到了7.8%的字符错误率。 | ||
搜索关键词: | 一种 结合 transformer cnn dfsmn ctc 中文 语音 识别 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010651174.X/,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法