[发明专利]基于集成学习与噪声感知训练的语音增强方法有效
申请号: | 201811385650.7 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109256144B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 王兮楼;郭武 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L21/0232;G10L25/30 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 学习 噪声 感知 训练 语音 增强 方法 | ||
本发明公开了一种基于集成学习与噪声感知训练的语音增强方法,相比于静态噪声感知训练,能较为准确地跟踪非平稳噪声,同时,利用梯度提升决策树可以自发提取特征的特性,获得对每一个时频单元的噪声场景编码,为深度神经网络提供噪声的额外信息,而传统的噪声感知训练方法只能够获得噪声的幅度信息。从实验结果来看,本方法也优于采用静态噪声感知训练的语音增强方法。
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于集成学习与噪声感知训练的语音增强方法。
背景技术
集成学习,是集成多个弱预测模型,最终得到一个强预测能力的模型;可用于分类、回归、特征选取。一般而言,集成学习模型在预测准确度和泛化能力上都优于单个模型,广泛应用于工业界。梯度提升决策树(GBDT)是一种常用的集成学习模型,基于集成学习中的boosting思想,通过迭代的方式训练一系列决策树,每次迭代都在减少残差的梯度方向建立新的决策树,最后的预测值是所有迭代生成的决策树预测值的加和。GBDT可以被用来挖掘多种有区分性的特征组合,常用的有决策树的路径或叶子节点序号。利用GBDT进行特征提取的方式已经在工业界被证明有效。
语音增强,是指从被各式各样的噪音污染的语音中提取尽量纯净的语音的技术,目的是提高语音的质量、清晰度与可懂度。根据麦克风的数目,语音增强可以分为单声道和多声道语音增强。
单声道语音增强分为无监督学习方法与有监督学习方法。
1、无监督学习方法可以追溯到上个世纪信号处理的诞生开始,通过分析语音和噪声间相互作用的关系来实现语音增强的目标。
无监督学习方法主要包括:1)谱减法。通过对噪声进行短时谱估计,从带噪语音中减去被估计的噪声,得到干净语音的估计;谱减法的算法简单易实现,但是容易因为噪声方差的估计偏差带来语音失真或音乐噪声,导致增强结果不好。2)维纳滤波法通过维纳滤波方法通过一个全极点的模型,将音乐噪声变成了白噪声,增强后的语音听感比谱减法好。3)基于最小均方误差的谱估计方法通过语音活动检测(VAD)判断这一倾是语音或非语音,然后通过迭代,对噪声方差进行估计。但是,上述无监督学习方法中一般存在许多假设条件,比如假设信号平稳等,从而会影响增强后的语音听感。
2、有监督学习方法一般利用大量训练数据学习带噪语音的一些特征,建立带噪语音与干净语音在频域上的映射关系,从而实现从噪声语音中去除噪声的目标。
有监督学习方法包括:1)非负矩阵分解方法(NMF)。通过训练数据中的语音数据和噪声数据分别学习语音和噪声的字典,然后将带噪语音进行非负矩阵分解,得到干净语音和噪声的估计。2)基于神经网络的语音增强。该方法可以追溯到上个世纪80年代的基于浅层神经网络(SNN)的语音增强方法,但当时受限于浅层神经网络的建模能力,语音增强性能不佳。
近年来,随着神经网络的兴起以及语音数据规模的增大,基于大量语音数据训练的神经网络语音增强方法相较传统方法取得了极大的优势;不同的网络结构被用于语音增强,包括深层神经网络(DNN),递归神经网络(RNN),以及生成对抗网络,这些神经网络的不同结构带来对带噪语音建模性能的差异,而语音增强的流程大致相同。具体的,首先设置信噪比,通过人工加噪生成大量的带噪语音和干净语音对。之后利用语音的短时平稳特性,对语音做分帧处理。然后通过变换域方法,将语音由时域变换到频域,提取每帧语音的频域特征;通过设置合理的目标函数(一般为均方误差),使用梯度下降等方法,使用神经网络学习带噪语音和干净语音的频谱特征之间的映射关系,获得干净语音的频谱估计。最后借助带噪语音的相位信息,利用傅里叶逆变换和经典重叠相加法,将估计的频谱变换到时域,得到增强后的时域波形。
上述神经网络均采用静态噪声感知训练,即根据语音前几个噪声帧估计静态噪声信息,将估计的噪声信息与频谱信息拼接起来训练语音增强神经网络的方法,静态噪声感知训练往往能有效地预测干净语音和抑制加性噪声。然而,面对非平稳和突发性噪声,静态噪声感知训练无法获得对噪声准确的估计。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811385650.7/2.html,转载请声明来源钻瓜专利网。