[发明专利]一种基于连续噪声估计的语音增强方法有效
申请号: | 201610812074.4 | 申请日: | 2016-09-08 |
公开(公告)号: | CN106340292B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L17/02;G10L21/0216;G10L21/0224;G10L21/0316 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于连续噪声估计的语音增强方法,在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计,利用估得的噪声均值恢复纯净语音。首先,对输入语音进行声学预处理和快速傅里叶变换,得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱,并利用预先训练得到的对数谱域语音模型从含噪语音的对数谱特征向量中实时提取噪声参数。最后,利用估得的噪声参数对含噪语音进行加权幅度谱减,并对增强语音的幅度和含噪语音的相位进行逆傅里叶变换和重叠相加,得到增强后的语音。本发明在含噪语音中对噪声参数按帧连续估计,实时跟踪噪声的变化。 | ||
搜索关键词: | 一种 基于 连续 噪声 估计 语音 增强 方法 | ||
【主权项】:
1.一种基于连续噪声估计的语音增强方法,其特征在于:首先,对输入语音进行声学预处理和快速傅里叶变换,得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号;然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱;如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型;如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值;得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱;最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT运算,恢复时域信号,并用重叠相加法得到增强后的语音;根据人耳的听觉特性将语音信号的频谱划分为若干个不等宽且互不重叠的子带,并将语音信号在每个子带内的幅度谱相加,得到子带谱;在训练阶段,对纯净训练语音的子带谱特征向量进行聚类,训练,得到纯净训练语音的GMM;利用纯净训练语音的GMM从含噪输入语音的对数谱特征中估计噪声均值,并将其变换回幅度谱域,得到背景噪声的均值向量;对每帧子带谱,按下式进行取对数操作:其中,和xt分别表示第t帧纯净训练语音的子带谱和对数谱;在训练阶段,用纯净训练语音的对数谱训练生成一个GMM:其中,cm,μx,m和Σx,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D表示语音频谱的子带数目,即向量xt的维数;利用训练阶段得到的GMM从含噪语音的对数谱yt中估计对数谱域的噪声均值μn:其中,γm(t)=P(kt=m|yt,λ)表示给定GMM的先验参数λ时,第t帧含噪语音对数向量yt属于GMM第m个高斯单元的后验概率;和Um为:式(4)中,μn0表示μn的初值;式(5)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵;得到对数谱域的噪声均值μn后,用下式将其变换回幅度谱域:其中,μn,l是μn的第l个元素,即第l个子带上的分量,Dl是第l个子带包含的频点的个数,N(l)是第l个子带上所有频点的噪声均值;这里假设每个子带上所有频点的噪声均值相同,这样就可以得到每个频点处的噪声均值N(k),其中,k为FFT的数字频率序号。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610812074.4/,转载请声明来源钻瓜专利网。