[发明专利]一种基于对比学习的端到端音障语音识别方法在审
申请号: | 202110588547.8 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113450777A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 孙仕亮;吴丽丹;赵静;张楠 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/16;G10L15/20;G10L15/22 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对比 学习 端到端 音障 语音 识别 方法 | ||
本发明公开了一种基于对比学习的端到端音障语音识别方法,该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型,再迁移到音障语音识别的任务中。在训练完成后,本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强,再通过Transformer模型中的编码器提取隐层信息,然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中,解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模型中的编码器引入到音障语音识别的领域,并通过投影模块得到的隐表示在隐空间上加速计算,同时在投影模块前保留足够多的信息供解码器使用。
技术领域
本发明涉及计算机技术领域,设计语音识别技术,特别涉及一种基于对比学习和端到端神经网络的音障语音识别方法。
背景技术
背景技术涉及:音障语音识别技术,Transformer模型及对比学习。
1)音障语音识别技术
音障语音识别技术是将有发音障碍患者的说话音频信号转化为文本语言的一种技术。语音识别的建模包括语言模型、声学模型两部分。语言模型通常用状态转移图来表示,通过上下文产生概率计算一个序列产生的联合概率。这些概率在状态图的构建中就已经固定,和待识别的语音无关。声学模型则匹配了语音和音素,是语音识别当中最主要的部分。在过去的研究中,常将有效的语音识别模型迁移到音障语音识别模型上,在进行一些微调后提升实验效果。
语音识别的探索过程经历了以下几个阶段:早期通过发音规律进行模版匹配;用概率统计模型对语音识别问题进行建模;用深度神经网络进行特征提取;直接用端到端网络进行训练。对于长逻辑的语句而言,不仅需要准确地识别出声音,还要将其翻译成完整的句子。
声音输入一般是语音数据经过信号处理得到的梅尔频谱系数以及感知线性预测系数。它们丢弃了大量的波形中的无效信息,保留了语音数据的有效特征,通过隐马尔可夫模型(Hidden Markov Models,HMM)来提取出隐层的音素信息。高斯混合模型(GaussianMixture Models,GMM)能丰富地建模隐马尔可夫模型中的隐状态和声音输入之间的关系。自从引入期望最大化算法进行训练以来,GMM-HMM就开始在语音识别领域取得不错的成绩。然而,GMM也存在其局限性。由于其固定了发射概率的形式,即使是建模简单的非线性映射关系,也需要大量的参数。实际上,语音是通过调节一个动力学系统中的少量参数而产生的,这意味着过多的参数是对语音任务的复杂化建模。因此,如何有效地利用帧中的信息是语音建模任务的关键。实际上,利用一些非线性网络去建模HMM中的隐状态和声音输入之间的关系曾获得一定的成功,但由于当时的计算能力不足以支持更深的网络层,并没有引起足够多的关注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588547.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种组织块清洗装置及其清洗方法
- 下一篇:一种声衰减建筑材料及其加工工艺