[发明专利]一种基于多帧频谱和非负矩阵分解的语音增强方法与装置在审

专利信息
申请号: 201710366412.0 申请日: 2017-05-23
公开(公告)号: CN107248414A 公开(公告)日: 2017-10-13
发明(设计)人: 何亮;施梦楠;徐灿;刘加 申请(专利权)人: 清华大学
主分类号: G10L21/0216 分类号: G10L21/0216;G10L21/0232;G10L25/27;G10L25/18
代理公司: 北京清亦华知识产权代理事务所(普通合伙)11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 帧频 矩阵 分解 语音 增强 方法 装置
【说明书】:

技术领域

发明属于语音增强和非负矩阵分解领域,特别涉及一种基于多帧频谱和非负矩阵分解的语音增强方法与装置。

背景技术

语音增强,也称为语音降噪,是对带噪语音进行处理,去除带噪语音中的噪声部分,获取带噪语音中的纯净语音部分,在改善语音质量的同时,提高语音的可懂度的语音处理技术。语音增强技术可以抑制语音通信过程中的背景噪声,提高通信质量。也可以作为语音处理系统的预处理系统,帮助语音处理系统抵抗噪声的干扰,提升系统的稳定性。在电子信息技术高速发展和成熟的今天,语音增强系统应用于通讯、手机、电脑、演唱会、侦查、场景录音等各种领域。

语音增强方法的种类众多,其中一种是基于短时频谱的语音增强方法,该类方法包括维纳滤波法、谱减法和MMSE估计法等经典算法。基于短时频谱的语音增强方法实现简单,可以抑制噪声,有应用价值。短时频谱虽然满足了语音短时平稳的性质,但是忽略了语音的其它特征信息。

Tseng等人提出了基于多帧稀疏字典学习和统计准则的语音增强方法。该方法的突出贡献是在语音增强方法中使用了多帧频谱,这和传统的基于短时频谱的语音增强方法有较大的区别。在基于短时频谱的语音增强方法中,为了获得短时频谱,需要将语音分为时间长度为10ms~30ms的帧,再使用短时傅里叶变换(Short-time Fourier transform,STFT)将时域信号变换到频域。

语音的最小单位是音素,而帧的时间长度通常小于音素的时间长度。也就是说,短时频谱的帧无法覆盖语音的最小单位。单个音素具有相对固定的时间结构,一些相邻音素还具有特定的转换关系。显然,这些信息无法通过单个帧获取。

多帧频谱能够保存这些信息。多帧频谱是一种结合上下文的语音建模方式。所建立的模型有如下优势:(1)在时间连续的语音中,上下文结构影响着时频能量的分布,多帧频谱可以保存这类语音的信息;(2)多帧频谱可以获取相邻音素之间的共振峰转换和音调变化等信息。

因此,结合上下文建模的多帧频谱预计能获得更好的语音模型,从而获得更好的语音增强效果。在多帧频谱中,多帧合成的“包”替换了原来的单帧。“包”内的多帧在时间上连续,单个“包”相当于时间长度更大的帧,也可以将多帧频谱称为长时频谱。与短时频谱相比,多帧频谱保存了语音的时序动态特征和时间结构。

1999年,Lee和Seung提出了非负矩阵分解(Non-negative matrix factorization,NMF)。NMF最初用于图像处理领域。近年来,NMF在语音增强领域也取得了较好的效果,逐渐成为一种主流的语音增强方法,受到了学者们的重视。

NMF将n×m维的非负数据矩阵V分解成W和H两个矩阵,并且满足近似相等公式:

V≈WH (1-1)

其中W是n×r维矩阵,H是r×m维矩阵,参数r满足r<nm/(n+m)。

一般将W称为V的基矩阵,将H称为V的系数矩阵。基矩阵W保存了非负数据矩阵V的数据特征,由基向量wi构成,每个基向量wi代表一个独立的特征向量。系数矩阵H是非负数据矩阵V的降维矩阵,由系数向量hi构成,每个系数向量hi对应V的一个列向量vi

NMF的主要作用是特征提取和数据降维。基矩阵W中包含了数据矩阵V的特征向量。同一类数据的具有近似的特征,因此可以利用NMF来提取一类数据的共有特征。系数矩阵H和数据矩阵V一一对应,可以看成是V降维后的结果。在同一类数据中,W不随V的改变而改变,而H随V的改变而改变。通俗地说,基矩阵包含数据的“共性”,系数矩阵代表数据的“特性”。

目前基于NMF的语音增强方法仍然是针对短时频谱进行处理,这类方法存在如下的问题:训练短时频谱无法获得多帧频谱包含的语音特有信息,恢复得到的纯净语音质量较差,语音增强效果较差。

已有的基于NMF的语音增强方法,流程如图1所示,包括训练基矩阵阶段和语音增强阶段两个阶段,包括以下步骤:

1)训练基矩阵阶段,具体包括以下步骤:

1-a)通过对训练数据预处理和快速傅里叶变换,分别得到训练数据中纯净语音的短时频谱和噪声的短时频谱;

1-b)通过NMF算法,将步骤1-a)得到的纯净语音的短时频谱和噪声的短时频谱分别转化为各自对应的基矩阵和系数矩阵的乘积;

1-c)通过计算最小广义KL散度代价函数,分别求出纯净语音短时频谱的基矩阵和噪声短时频谱的基矩阵;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710366412.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top