[发明专利]一种基于自注意力机制的流式语音转写系统有效
申请号: | 201910850127.5 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110473529B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 温正棋;田正坤 | 申请(专利权)人: | 北京中科智极科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G06N3/04 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 100089 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 语音 转写 系统 | ||
本发明公开了一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量;自注意力预测网络模块:用于根据输入的上一时刻预测标记,生成一个语言状态向量。联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。本发明提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。
技术领域
本发明涉及电子行业信号处理技术领域,具体涉及一种基于自注意力机制的流式语音转写系统。
背景技术
语音作为人类交流信息的主要手段之一,语音识别技术主要是让计算机能够识别人类语音并转写为对应的文本。在语音识别技术的发展过程中,早期的研究主要是采用基于混合高斯模型和隐马尔科夫模型的方法,深度神经网络的发展使得高斯模型被深度神经网络所替代。近年来,随着计算机技术的发展,端到端模型因为简化的流程,优雅的模型结构,受到了越来越多人的关注。
循环神经网络语音转写系统采用循环神经网络作为基本的网络框架。基于循环神经网络进行语音识别建模,具有很多优点,模型能够建模长距离的文本依赖关系,提高模型的精度。但是循环神经网络递归的进行计算在训练过程中效率比较低下。自注意力机制也能够建模长距离的依赖关系,但是需要以完整的序列作为输入,虽然具有很高的计算效率,但是并不能应用于流式序列建模任务。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于自注意力机制的流式语音转写系统,本发明提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。
为了解决上述技术问题,采用如下技术方案:
一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;
所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的声学特征向量;
所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征向量,得到编码后的声学状态向量St;
所述自注意力预测网络模块:所述自注意力预测网络模块为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。
所述联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态向量和语言状态向量,并计算新的预测标记的概率。
进一步,所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。
进一步,所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。
进一步,所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层,
所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;
所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。
进一步,所述多头流式自注意力层的计算方式如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科智极科技有限公司,未经北京中科智极科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910850127.5/2.html,转载请声明来源钻瓜专利网。