[发明专利]一种基于后验知识监督的噪声鲁棒声学建模方法在审
申请号: | 201810576451.8 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108986788A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 潘子春;李葵;李明;张引强;黄影;赵峰;吴立刚;徐海青;章爱武;陈是同;徐唯耀;秦浩;王文清;郑娟;秦婷;梁翀;浦正国;张天奇;余江斌;韩涛;杨维;张才俊 | 申请(专利权)人: | 国网安徽省电力有限公司信息通信分公司;国网信息通信产业集团有限公司;安徽继远软件有限公司;国家电网有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/20;G10L21/0216;G10L25/03;G10L25/27 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 干净语音 后验概率 学生模型 声学建模 噪声鲁棒 老师 人机交互技术 环境鲁棒性 抗噪性能 声学模型 语音训练 监督 建模 逼近 语音 表现 | ||
本发明公开了一种基于后验知识监督的噪声鲁棒声学建模方法,属于语音人机交互技术领域,该方法包括:通过老师模型的训练得出干净语音的后验概率分布;以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。本发明示例的建模方法,建立的声学模型具有较强的环境鲁棒性,表现出优越的抗噪性能。
技术领域
本发明属于语音人机交互技术领域,具体的说是一种基于后验知识监督的噪声鲁棒声学建模方法。
背景技术
近年来,随着语音识别、自然语言处理、深度学习等技术的发展和市场需求的不断深化,语音交互产品的研发与应用逐渐成为一个新的热点;另一方面,由于实际应用场景的复杂性,语音交互系统的运行通常处在一个低信噪比的环境下,由于对噪声的抗干扰能力不足,系统交互过程中经常会出现语音识别准确率低或人机交互混乱等情况,导致服务对象的交互体验感不佳,很大程度上限制了语音交互产品的市场应用及推广。
相关研究表明,语音声学模型能否从带噪语音中提取出完整音素信息是决定语音交互系统噪声鲁棒性的关键,声学模型在噪声鲁棒性上的不足主要是模型构建阶段环境噪声导致训练数据与测试数据不匹配而造成的,即提高噪声鲁棒性的目的是要最大限度的降低或消除此类因素的影响。迄今为止,语音识别领域的诸多学者对声学模型噪声鲁棒性开展了广泛研究并提出了多种改进策略,其中应用效果较好的有特征补偿、模型补偿、鲁棒性特征提取和语音增强四种方法。
特征与模型补偿是通过自适应算法对声学模型进行优化处理的噪声鲁棒性方法。例如Leggetter等利用最大似然回归(MLLR)算法进行模型自适应;Tran等通过线性分解网络对基于深度神经网络(DNN)的声学模型训练的输入数据进行自适应处理,使声学模型能够较好的匹配带噪语音的数据结构,模型鲁棒性得到提升。
鲁棒性特征提取是指从语料中提炼出对于噪声不敏感的特征参数,构建抗噪能力强的特征序列,从而提高声学模型的噪声鲁棒性。倒谱均值归一化法(CMN)和均值方差归一化方法(MVN)是最常见的两种鲁棒性特征提取方法,另外也有学者将感知线性预测系数(PLP)特征与相对谱(RASTA)滤波结合,加强声学模型对加性噪声和线性滤波的鲁棒性;另外刘长征等以MFCC特征作为CNN网络的输入,采取有监督学习的方式,提取出更高层的语音特征,实验表明这些特征在噪声环境下具有较好的时序不变性。
语音增强现今最常用的方式是通过噪声更新与噪声消除相结合的谱减法对语音和噪声独立处理,在假设噪声信息已知的情况下估计出语料的噪声谱,从带噪语音谱中减去预估的噪声谱得到语料的干净谱,从而提取出噪声语音中的干净特征用于声学模型的训练;此外Xu等提出了谱减法与DNN网络相结合的方式,将谱减法处理后的特征与噪声估计参数作为基础样本输入到DNN网络中,通过噪声依赖训练得到的深度声学模型与谱减法相比抗噪性能更好。
上述四种方法虽然可以有效的提升声学模型的环境鲁棒性,但是在理论与应用上存在两个问题:一是上述方法只是通过干净语音对带噪语音的降噪进行监督或者通过带噪语音对干净语音进行拟合,降低二者之间的差异性,并未充分挖掘干净语音的隐含知识,对信息的提炼不够充分;另一方面,上述四类方法中声学特征提取模块与后续的训练识别过程是相互独立的,没有考虑建模与特征提取单元之间的内在联系,使得模型训练的目标函数与系统整体的性能指标有偏差,并且提取出的语音特征中包含部分冗余信息,这些冗余信息通常不具备噪声鲁棒性,导致使得整个声学网络往往达不到最优性能。
因此,如何提高语音交互系统的噪声鲁棒性是现阶段急需解决的问题。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种基于后验知识监督的噪声鲁棒声学建模方法,该方法可提升声学模型的噪声鲁棒性。
本发明所采用的技术方案为:
提供了一种基于后验知识监督的噪声鲁棒声学建模方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网安徽省电力有限公司信息通信分公司;国网信息通信产业集团有限公司;安徽继远软件有限公司;国家电网有限公司,未经国网安徽省电力有限公司信息通信分公司;国网信息通信产业集团有限公司;安徽继远软件有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810576451.8/2.html,转载请声明来源钻瓜专利网。