[发明专利]一种基于端到端语音识别模型和语言模型的融合方法在审
申请号: | 202210242872.3 | 申请日: | 2022-03-11 |
公开(公告)号: | CN114596843A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 柳宇非;张伟彬;邢晓芬;徐向民 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/183;G10L15/26;G10L19/16 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 周春丽 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 端到端 语音 识别 模型 语言 融合 方法 | ||
本发明属于端到端语音识别技术领域,公开了一种基于端到端语音识别模型和语言模型的融合方法,包括以下步骤:S1、使用语音和文本对训练端到端的语音识别模型,并且使用文本数据训练一个外部语言模型;S2、将训练好的所述语音识别模型的解码器部分单独取出并形成独立的模型;S3、用训练数据到文本单独训练所述独立的模型并在收敛后得到内部语言模型的估计模型;S4、对所述语音识别模型、所述外部语言模型和所述内部语言模型的估计模型的分数融合进行解码以得到解码结果。这种算法能提高语音识别模型与语言模型融合后识别的准确率,在语音识别领域有着广泛的应用前景。
技术领域
本发明属于语音识别领域技术,特别涉及一种基于端到端语音识别模型和语言模型的融合方法。
背景技术
目前最经典的语音识别方法是基于隐马尔科夫模型(Hidden Markov Model,HMM)和神经网络(Deep Neural Network,DNN)相结合的方法。尽管这种方法很好地利用了语音信号的短时平稳特性,但仍存在声学模型、发音词典、语言模型多模型级联,模型训练目标不一致、解码空间大等缺点。而端到端语音识别的发明简化了整个语音识别流程,训练目标简单一致。
目前端到端语音识别模型可以主要分为三类:连续时间分类模型(ConnectionistTemporal Classification,CTC),循环神经网络转换机模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力机制的序列模型(Attention-based End-to-End Model,A-E2E)。其中,CTC模型中引入独立性假设,RNN-Transducer主要应用于流式语音识别模型,而基于注意力机制的序列模型采用注意力机制对齐帧级语音信号与文字序列,其准确性是端到端语音识别模型中最高。端到端语音识别框架主要分三个部分,分别是编码器,解码器和注意力机制。目前想要取得更加好的识别效果辅助的语言模型也十分重要。目前主流的语言模型和语音识别模型的融合算法是浅融合技术(Shallow Fusion,SF)。这种技术,这种融合技术对于传统的语音识别模型来说效果非常不错,但是对于端到端的语音识别模型的提升非常有限。这主要是因为与传统的语音识别模型不同,端到端的语音识别模型是对整个句子建模的,因此不可避免地会学习到一个内部的语言模型(InternalLanguage Model,ILM)。这个内部的语言模型,会影响到语音识别模型和外部语言模型的融合。随着端到端模型越来越广泛的被应用,越来越多的解决方法也被提出来了,其中最出名的是Masashi Sugiyama提出的Density Ratio方法。这种方法用语音识别模型训练的数据上训练一个小的语言模型来近似ILM,并且在和外部语言模型融合的时候减去这个近似的ILM从而达到减少ILM影响的目的,这一工作略微改善了融合的性能,但是由于无法保证通过近似的ILM估计真实ILM的准确性,因此系统准确率提升十分有限。在Density Ratio方法的基础上,微软提出了内部语言模型估计技术(Internal Language Model Estimation),这个技术可以直接对语音识别模型内部的语言模型进行非常准确的估计,从而在融合阶段减去一个估计更加准确的ILM,因此获得极大的性能提升。但是微软提出的ILME方法只能适用于有着双向长短期记忆网络编码器的端到端语音识别模型,而不能用在最新提出的Transformer编码器和Conformer编码器上,因此它的应用受到很大的局限性。同时由于微软提出的方法没有自适应的功能,因此即使应用在有着BLSTM编码器的端到端语音识别模型上也无法取得最优的效果(INTERNAL LANGUAGE MODEL ESTIMATION FOR DOMAIN-ADAPTIVE END-TO-END)。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210242872.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自由段与锚固段弹性隔断结构
- 下一篇:一种螺旋滚筒管道检测机器人