[发明专利]一种基于旋转位置编码的端到端语音识别方法在审
申请号: | 202111035297.1 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113889095A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 张晓雷;李盛强 | 申请(专利权)人: | 西北工业大学;西北工业大学深圳研究院 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/26 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 旋转 位置 编码 端到端 语音 识别 方法 | ||
本发明公开了一种基于旋转位置编码的端到端语音识别方法,并利用旋转位置编码增强卷积自注意力网络(Conformer)对声学特征的建模能力。首先通过旋转矩阵对输入序列中元素的绝对位置信息进行编码,然后在多头自注意力模块的输入向量的内积中加入相对位置信息,构建基于卷积自注意力网络的端到端语音识别模型,再通过语音识别模型将输入语音转换为文本信息。本发明在AISHELL‑1和LibriSpeech语料库上进行了实验,实验结果表明,用旋转位置编码增强的Conformer比原始Conformer在语音识别任务上表现更好。在AISHELL‑1数据集的测试集上实现了4.69%的字错误率,在LibriSpeech数据集的“test‑clean”和“test‑other”集上分别实现了2.1%和5.1%的词错误率。
技术领域
本发明属于模式识别技术领域,具体涉及一种语音识别方法。
背景技术
输入序列的时序信息在许多序列学习任务中起着至关重要的作用,尤其是在语音识别中。基于循环神经网络的模型可以通过沿时间维度递归计算其隐藏状态来学习序列的时序信息。基于卷积神经网络的模型可以通过填充算子隐式地学习输入序列的位置信息。近年来,基于Transformer的模型已经在机器翻译、语言建模和语音识别等各种序列学习任务中表现出极大的优越性。基于Transformer的模型利用自注意力机制对输入序列中不同元素之间的依赖性进行建模,这提供了比循环神经网络更高效的并行计算,并且可以对元素之间的上下文依赖性建模比卷积神经网络更长。
基于Transformer的模型摒弃了递归的计算,仅利用自注意力机制就可以建模输入序列中元素之间的全局依赖,但是自注意力机制不能对序列的时序信息进行建模。因此,近年来涌现了一些将输入序列中元素的相对或绝对位置信息加入到基于Transformer的模型中的工作。
第一种做法是采用绝对位置编码,例如通过三角位置编码将绝对位置信息到输入序列中。具体而言,输入序列中每个元素的绝对位置被编码成一个向量,其维度等于输入序列的维度,通常将位置编码序列和输入序列相加;除了采用预先定义的函数来编码输入序列中元素的绝对位置信息,还可以采用一组可学习的向量来编码绝对元素的位置信息,这种可学习的位置编码可以取得与三角位置编码相当的性能。但是,它不能外推到比训练集中语料更长的长度。
第二种做法是采用相对位置编码,通常在计算注意力时加入相对位置信息。最初的相对位置编码方法是用输入序列中任意两个元素之间的距离来代替绝对位置信息,在两个机器翻译任务上取得了显著的提升。后来该方法推广到语言模型上,帮助语言模型建模段落之间的长时依赖。还有一些工作还在语音识别任务中将相对位置编码用于声学建模,使得自注意力模块更好地处理不同的输入长度。但是,相对位置编码增加了模型的参数量,且相对位置编码的矩阵运算实现起来较为繁琐。
发明内容
为了克服现有技术的不足,本发明提供了一种基于旋转位置编码(Rotaryposition embedding,RoPE)的端到端语音识别方法,并利用旋转位置编码增强卷积自注意力网络(Conformer)对声学特征的建模能力。首先通过旋转矩阵对输入序列中元素的绝对位置信息进行编码,然后在多头自注意力模块的输入向量的内积中加入相对位置信息,构建基于卷积自注意力网络的端到端语音识别模型,再通过语音识别模型将输入语音转换为文本信息。本发明在AISHELL-1和LibriSpeech语料库上进行了实验,实验结果表明,用旋转位置编码增强的Conformer比原始Conformer在语音识别任务上表现更好。在AISHELL-1数据集的测试集上实现了4.69%的字错误率,在LibriSpeech数据集的“test-clean”和“test-other”集上分别实现了2.1%和5.1%的词错误率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于卷积自注意力网络的端到端语音识别模型;
步骤1-1:去掉卷积自注意力网络在下采样层的位置编码,在每个编码器的多头自注意力模块之前加入旋转位置编码,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111035297.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电力营销用的数据采集储存工具
- 下一篇:电子装置