[发明专利]基于集成学习与噪声感知训练的语音增强方法有效

申请号：	201811385650.7	申请日：	2018-11-20
公开（公告）号：	CN109256144B	公开（公告）日：	2022-09-06
发明（设计）人：	王兮楼;郭武	申请（专利权）人：	中国科学技术大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0216;G10L21/0232;G10L25/30
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;郑哲
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于集成学习噪声感知训练语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于集成学习与噪声感知训练的语音增强方法，相比于静态噪声感知训练，能较为准确地跟踪非平稳噪声，同时，利用梯度提升决策树可以自发提取特征的特性，获得对每一个时频单元的噪声场景编码，为深度神经网络提供噪声的额外信息，而传统的噪声感知训练方法只能够获得噪声的幅度信息。从实验结果来看，本方法也优于采用静态噪声感知训练的语音增强方法。

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于集成学习与噪声感知训练的语音增强方法。

背景技术

集成学习，是集成多个弱预测模型，最终得到一个强预测能力的模型；可用于分类、回归、特征选取。一般而言，集成学习模型在预测准确度和泛化能力上都优于单个模型，广泛应用于工业界。梯度提升决策树(GBDT)是一种常用的集成学习模型，基于集成学习中的boosting思想，通过迭代的方式训练一系列决策树，每次迭代都在减少残差的梯度方向建立新的决策树，最后的预测值是所有迭代生成的决策树预测值的加和。GBDT可以被用来挖掘多种有区分性的特征组合，常用的有决策树的路径或叶子节点序号。利用GBDT进行特征提取的方式已经在工业界被证明有效。

语音增强，是指从被各式各样的噪音污染的语音中提取尽量纯净的语音的技术，目的是提高语音的质量、清晰度与可懂度。根据麦克风的数目，语音增强可以分为单声道和多声道语音增强。

单声道语音增强分为无监督学习方法与有监督学习方法。

1、无监督学习方法可以追溯到上个世纪信号处理的诞生开始，通过分析语音和噪声间相互作用的关系来实现语音增强的目标。

无监督学习方法主要包括：1)谱减法。通过对噪声进行短时谱估计，从带噪语音中减去被估计的噪声，得到干净语音的估计；谱减法的算法简单易实现，但是容易因为噪声方差的估计偏差带来语音失真或音乐噪声，导致增强结果不好。2)维纳滤波法通过维纳滤波方法通过一个全极点的模型，将音乐噪声变成了白噪声，增强后的语音听感比谱减法好。3)基于最小均方误差的谱估计方法通过语音活动检测(VAD)判断这一倾是语音或非语音，然后通过迭代，对噪声方差进行估计。但是，上述无监督学习方法中一般存在许多假设条件，比如假设信号平稳等，从而会影响增强后的语音听感。

2、有监督学习方法一般利用大量训练数据学习带噪语音的一些特征，建立带噪语音与干净语音在频域上的映射关系，从而实现从噪声语音中去除噪声的目标。

有监督学习方法包括：1)非负矩阵分解方法(NMF)。通过训练数据中的语音数据和噪声数据分别学习语音和噪声的字典，然后将带噪语音进行非负矩阵分解，得到干净语音和噪声的估计。2)基于神经网络的语音增强。该方法可以追溯到上个世纪80年代的基于浅层神经网络(SNN)的语音增强方法，但当时受限于浅层神经网络的建模能力，语音增强性能不佳。

近年来，随着神经网络的兴起以及语音数据规模的增大，基于大量语音数据训练的神经网络语音增强方法相较传统方法取得了极大的优势；不同的网络结构被用于语音增强，包括深层神经网络(DNN)，递归神经网络(RNN)，以及生成对抗网络，这些神经网络的不同结构带来对带噪语音建模性能的差异，而语音增强的流程大致相同。具体的，首先设置信噪比，通过人工加噪生成大量的带噪语音和干净语音对。之后利用语音的短时平稳特性，对语音做分帧处理。然后通过变换域方法，将语音由时域变换到频域，提取每帧语音的频域特征；通过设置合理的目标函数(一般为均方误差)，使用梯度下降等方法，使用神经网络学习带噪语音和干净语音的频谱特征之间的映射关系，获得干净语音的频谱估计。最后借助带噪语音的相位信息，利用傅里叶逆变换和经典重叠相加法，将估计的频谱变换到时域，得到增强后的时域波形。

上述神经网络均采用静态噪声感知训练，即根据语音前几个噪声帧估计静态噪声信息，将估计的噪声信息与频谱信息拼接起来训练语音增强神经网络的方法，静态噪声感知训练往往能有效地预测干净语音和抑制加性噪声。然而，面对非平稳和突发性噪声，静态噪声感知训练无法获得对噪声准确的估计。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811385650.7/2.html，转载请声明来源钻瓜专利网。

上一篇：语音参数量化方法、装置、计算机设备和存储介质
下一篇：基于终端的音频处理方法、装置、终端和可读存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于集成学习与噪声感知训练的语音增强方法有效

专利文献下载