[发明专利]基于卷积自注意力变换网络的轻量级端到端语音识别方法有效
申请号: | 202110398481.6 | 申请日: | 2021-04-12 |
公开(公告)号: | CN113140220B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张晓雷;李盛强;陈星 | 申请(专利权)人: | 西北工业大学;西北工业大学深圳研究院 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 注意力 变换 网络 轻量级 端到端 语音 识别 方法 | ||
本发明公开了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型,该模型对卷积自注意力变换网络进行改进,构成高效卷积自注意力变换网络;将低秩分解用于卷积自注意力变换网络中的前馈层,形成低秩前馈模块;提出多头高效自注意力MHESA,并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力;最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性,并将整个模型的参数量减少了约50%,而性能基本不变。
技术领域
本发明属于模式识别技术领域,具体涉及一种轻量级端到端语音识别方法。
背景技术
语音识别(ASR,Automatic Speech Recognition)旨在将语音信号转换为文本内容,它可以形象地比喻为“机器的听觉系统”,是人机通信和交互技术的重要研究领域,也是人工智能的关键技术之一。语音识别可以应用到包括语音助手、自动驾驶、智能家居、手持移动设备等许多方面。近年来发展出的端到端语音识别技术,相比传统方法有着众多优点,如训练数据的标注简单、对语言学知识的依赖小、不需要隐马尔可夫模型中基于马尔科夫链的状态转移概率的条件独立假设,同时模型的训练和解码过程也更简单。目前主要有三种流行的端到端的方法,即连接时序分类(CTC,Connectionist TemporalClassification)、递归神经网络变换器(RNN-T,Recurrent Neural Network-Transducer)和基于注意力机制的编码器-解码器(AED,Attention based Encoder-Decoder)。
其中AED模型主要有两种,第一种AED模型采用递归神经网络(RNN,RecurrentNeural Network)作为其编码器和解码器的基础模块。第二种AED模型采用Transformer作为其编码器和解码器的基础模块。由于Transformer比RNN准确率高,训练速度快,因此基于Transformer的AED模型逐渐成为主流。但Transformer也存在一些缺点,如点积自注意力的计算复杂度随输入特征序列长度呈二次方增长、模型参数量大等。
近年来涌现了一些降低点积自注意力计算复杂度的研究:①通过轻量级的动态卷积代替了自注意力层;②利用局部密集的合成器注意力,来限制注意力权重的长度,从而减少了存储和计算的复杂度;③使用正交正随机特征进行快速注意力计算,并获得了很好的效果。另一方面,有许多压缩模型,减小参数量的工作。比如:①QuartzNet模型使用一维可分离卷积,基于CTC损失训练,并在LibriSpeech数据集上实现了近乎最高的准确性;②Low-rank Transformer采用低秩矩阵分解来压缩模型大小,同时性能下降很少;③卷积自注意力变换网络将自注意力与相对位置编码、卷积相结合,从而以较小的模型尺寸实现了最新的结果;④ContextNet结合了全卷积编码器和RNN-T解码器,该编码器通过添加Squeeze和Excitation模块将全局上下文信息合并到卷积层中。
发明内容
为了克服现有技术的不足,本发明提供了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型,该模型对卷积自注意力变换网络进行改进,构成高效卷积自注意力变换网络;将低秩分解用于卷积自注意力变换网络中的前馈层,形成低秩前馈模块;提出多头高效自注意力MHESA,并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力;最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性,并将整个模型的参数量减少了约50%,而性能基本不变。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110398481.6/2.html,转载请声明来源钻瓜专利网。