[发明专利]一种流式和非流式混合语音识别系统及流式语音识别方法有效

申请号：	202110675286.3	申请日：	2021-06-18
公开（公告）号：	CN113257248B	公开（公告）日：	2021-10-15
发明（设计）人：	陶建华;田正坤;易江燕	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/16;G10L15/06
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孙剑锋;李永叶
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种非流式混合语音识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种流式和非流式混合语音识别系统，包括：流式编码器、联结时序分类解码器和注意力机制解码器；流式编码器采用基于局部自注意力机制的Transformer来进行构建；联结时序分类解码器包含一个线性映射层，负责将编码状态映射到预先设计好的词表空间，使编码状态映射表示的维度与词表空间的维度相同，然后通过Softmax计算预测到的标记，用于流式解码；注意力机制解码器采用Transformer解码器来构建，由前端卷积层和多层重复的单向Transformer编码层组成，最后一层为线性映射层，使编码状态映射表示的维度与词表空间的维度相同，并计算最终输出的概率。

技术领域

本申请涉及语音识别领域，尤其涉及一种流式和非流式混合语音识别系统。

背景技术

目前语音识别技术已经获得了广泛的应用，语音识别根据不同的应用场景可以划分为流式语音识别系统和非流式语音识别系统，流式语音识别系统为了降低延迟和实时率，其所依赖的声学上下文大大降低，其在一定程度上也影响了模型的识别效果。非流式的语音识别系统，其应用于对于实时率没有要求的场合，其可以使用全部的声学序列进行预测，一般情况下非流式系统相较流式识别系统具有更好的识别效果。然而为了适应不同的任务需求，一般要针对流式和非流式任务来分别训练模型，而并没有一种效果好的方案可以实现一个模型应用于两种任务。本发明提出一种语音识别系统，其将流式和非流式模型整合到同一个模型中，实现了一种模型，两种解码模式，适用于两种类型的任务。

目前针对流式语音识别和非流式语音识别的方案有很多种，但是将两种识别模型统一到一个框架中的方案并不多。其中主要包含两种思路：

第一种思路是Google的思路，通过编码器部分的变上下文训练来实现同一个编码器对于流式（局部上下文）和非流式（全局上下文）的适应。其在模型训练过程中，同时训练流式和非流式，当训练流式模型时候，会遮蔽掉声学下文，仅依赖声学上文。而训练非流式的时候，并不采用遮蔽操作，而对全部的声学上下文进行建模。为了消除流式模型和非流式模型之间的性能差距，模型还使用了知识萃取的思路，使用非流式模型来提升流式模型的表现。解码器可以使用一个解码器来实现两种解码模式，只需要针对不同的任务需求选择不同的编码器即可。

第二种思路是阿里巴巴提出的混合模型，其模型包含两个编码器（流式和非流式）和两个解码器。系统对对输入的语音采用不同的类别的编码器进行编码，针对流式任务则选流式编码器，然后使用流式解码器进行初步解码，使用非流式解码器对其解码结果进行重打分。进行非流式解码就是解码的时候仅依赖于非流式编码器和解码器。这种结构模型相对复杂。

申请公布号CN111402891A公开的实施例提供了语音识别方法、装置、设备和存储介质。所述方法包括获取当前待识别语音信号的语音特征序列；将所述语音特征序列输入预先训练得到的Deep-FSMN模型，得到表示各个音素的概率的输出序列；将所述输出系列输入预先训练的CTC模型，得到对应的音素序列；将所述音素序列输入语言模型，转换成最终的文字序列作为识别结果。以此方式，可以提升模型性能，减少语音识别的时延；减少了运算量，提高了语音识别效果。

申请公布号CN111968629A请求保护一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，该方法包括步骤：S1，将语音信号进行预处理，提取80维的log melFbank特征；S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积；S3，将特征输入到DFSMN网络结构中；S4，将CTC loss作为声学模型的损失函数，采用Beam search算法进行预测，使用Adam优化器进行优化；S5，引入强语言模型Transformer迭代训练直至达到最优模型结构；S6，将Transformer和声学模型CNN-DFSMN-CTC相结合进行适配，在多数据集上进行验证，最终得到最优识别结果。本发明识别准确率更高，解码速度更快，在多个数据集上验证后字符错误率达到了11.8％，其中在Aidatatang数据集上最好达到了7.8％的字符错误率。

现有技术主要问题包含两方面：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110675286.3/2.html，转载请声明来源钻瓜专利网。

上一篇：太空笔墨水专用的高粘弹性树脂、制备方法及使用该树脂的墨水
下一篇：信能复用接收装置与无线接收链路系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种流式和非流式混合语音识别系统及流式语音识别方法有效

专利文献下载