[发明专利]基于端到端模型的混合语音识别系统及方法在审
申请号: | 202111041405.6 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113763939A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 司玉景;李全忠;何国涛;蒲瑶 | 申请(专利权)人: | 普强时代(珠海横琴)信息技术有限公司 |
主分类号: | G10L15/183 | 分类号: | G10L15/183;G10L15/06;G10L15/02 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 端到端 模型 混合 语音 识别 系统 方法 | ||
本发明涉及一种基于端到端模型的混合语音识别系统及方法,包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术,对海量语音数据进行建模,并将端到端模型的编码网络作为声学模型,嵌入到混合语音识别系统中,不仅进一步提高了语音识别准确率,而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外,本发明在端到端模型的编码网络的基础上,继续做鉴别性声学模型训练(SMBR、MPE等),可以进一步提高识别准确率。
技术领域
本发明属于语音识别技术领域,具体涉及一种基于端到端模型的混合语音识别系统及方法。
背景技术
近年来,随着AI技术和计算机硬件的不断发展,语音识别领域取得了飞速发展。语音识别系统框架先后经历了三个阶段。第一个阶段为模版匹配系统,这个阶段最具代表性的算法为动态弯曲算法(Dynamic Time Warping),通过计算两个模版的相似性,并且在时间上进行弯曲,从而实现简单的孤立词识别系统;第二个阶段为混合语音识别系统,是基于隐马尔可夫(HMM)框架,根据贝叶斯公式,将语音识别系统模块化,混合语音识别系统框架分为五个模块:特征提取、解码器、语言模型、声学模型、后处理;特征提取是将语音信号从时域信号转为频域特征,一般采用MFCC或者FBank;解码器一般采用基于加权有限状态机(Weighted Finite State Transducer,WFST)的静态解码器,利用Viterbi算法,搜索解码网络中最优的路径作为识别结果;静态解码器将语音识别系统中的语言模型、发音字典、音素建模,统一表示成WFST的形式,然后利用有限状态机中的复合操作、确定化操作、最小化操作等算法,可以充分地优化解码网络,从而提高解码效率,另外,基于WFST的解码器,可以采用基于类的语言模型、热词增强、优化发音字典等技术,实现项目的可定制化,进一步提高识别率;声学模型先后经历了传统混合高斯(GMM)和深度神经网络(DNN、RNN、LSTM、CNN等神经网络结构),训练时的损失函数从交叉熵(CE)到连接时域分类(CTC),其中,鉴别性训练(SMBR、MPE等),对提升识别率是有帮助的。第三个阶段为纯端到端的语音识别系统,是将声学模型和语言模型联合优化,彻底抛弃了HMM的框架,包含编码器(Encoder)和解码器(Decoder),其中,编码器负责学习语音信号的高级特征,解码器负责学习语义上的特征,并给出解码结果;
相关技术中,纯端到端语音识别系统发展迅速,先后提出了LAS、RNN-T、CT(Conformer-Transformer),其中,CT结构同时考虑语音信号的全局特征和局部特征,并且在训练中采用CTC/Attention联合优化的机制,训练稳定,取得了不错的结果。但是,在具体实施项目优化中,纯端到端语音识别系统,面临两个瓶颈:一是如果训练集和项目领域不匹配,识别效果较差;另一个是无法快速优化项目中某些关键词的识别率。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于端到端模型的混合语音识别系统及方法,以解决现有技术中训练集和项目领域不匹配时识别效果较差,以及实现项目中快速优化关键词识别率的问题。
为实现以上目的,本发明采用如下技术方案:一种基于端到端模型的混合语音识别系统,包括:特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块;
所述特征提取模块用于提取音频数据中的声学特征;
所述语言模型用于获取所述声学特征中对应的候选文本的语言模型分数;
所述基于端到端模型的声学模型用于获取所述声学特征的每个建模单元的后验概率;其中,所述建模单元包括词、单字、带调或无调拼音、和音素;
所述解码器用于对所述语言模型分数及对应建模单元的后验概率进行加权处理,然后根据加权处理后的得分进行搜索排序;
所述词图重估模块用于对排序后的识别结果进行重估并重新排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普强时代(珠海横琴)信息技术有限公司,未经普强时代(珠海横琴)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111041405.6/2.html,转载请声明来源钻瓜专利网。