[发明专利]一种基于噪声功率谱Gamma分布统计模型的有音区检测方法有效
申请号: | 201510885221.6 | 申请日: | 2015-12-03 |
公开(公告)号: | CN105513614B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李宇;林胜义;谭洪舟 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528300 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于噪声功率谱Gamma分布统计模型的有音区检测(Voice Activation Detection,VAD)方法,属于语音信号处理技术领域。现有基于统计模型的VAD算法通常不考虑语音统计信息,仅仅利用噪声功率谱(Power Spectral Density,PSD)的统计模型来检测活动语音,常用的噪声PSD统计模型为左右对称的Gaussian模型,不能较好地体现噪声PSD分布的长拖尾特性,不利于处理Babble等非平稳噪声。本发明采用伽玛分布(Gamma Distribution)作为噪声分布统计模型,比高斯分布(Gaussian Distribution)和瑞利分布(Rayleigh Distribution)具有更好的长拖尾特性拟合效果,改进后的VAD算法性能更优。 | ||
搜索关键词: | 一种 基于 噪声 功率 gamma 分布 统计 模型 音区 检测 方法 | ||
【主权项】:
1.一种基于噪声功率谱Gamma分布统计模型的有音区检测方法,其特征在于,包括以下步骤:1)获取含噪语音的信号z(n),并进行分帧处理,得到第k帧含噪的语音zk(n);2)计算第k语音帧频率为fl时的功率谱密度(PSD)估计值Pzz,k(fl);3)对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P′ZZ,k(fl);判断当前语音帧是否为纯噪声,若是,则将第k帧噪声频率为fl的PSD值Pvv,k(fl)更新为高频带的PSD估计值P′ZZ,k(fl)并跳转到步骤4);否则,则不更新第k帧噪声频率为fl的PSD值Pvv,k(fl)跳转到步骤4);4)对第k帧噪声频率为fl的PSD估计值Pvv,k(fl)求指数平均值
计算PSD估计值Pvv,k(fl)的平方再取指数平均得噪声方差值varvk(fl);5)用高频带PSD估计值P′ZZ,k(fl)和噪声PSD指数平均值
计算信噪比(SNR)测量值
并求其指数平均值
噪声PSD指数平均值
结合噪声方差值varvk(fl)计算有音区检测(VAD)阈值ηk(fl),再求其指数平均值
6)SNR测量值得指数平均
与VAD阈值的指数平均
进行比较,比较结果通过Hangover方法得出最终的VAD判决;所述步骤2)采用低方差频谱估计的Welch方法来估计语音帧的PSD值,该PSD估计值用于SNR测量值和VAD阈值的计算;所述步骤3)通过对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P′ZZ,k(fl);检测当前VAD值是否为0,若VAD=0,则判断当前帧为纯噪声并更新噪声PSD估计值Pvv,k(fl),即将高频PSD估计值P′ZZ,k(fl)赋值给噪声PSD估计值Pvv,k(fl);若VAD≠0,则不更新噪声PSD估计值Pvv,k(fl),保留上一次更新的噪声PSD估计值Pvv,k(fl);所述步骤6)通过SNR测量值的指数平均
与VAD阈值的指数平均值
进行比较来作出VAD判决,若
则VAD=1,由此判断该语音帧处于有音区,反之,则VAD=0,认为该语音帧为纯噪声;依据相邻语音帧之间强相关性,进行VAD阈值判断后串接Hangover方法来降低错误拒绝率;噪声PSD指数平均值
结合噪声方差值varvk(fl)计算有音区检测(VAD)阈值ηk(fl)的具体过程如下:
E[Pvv,k(fl)]与E[Pvv,k(fl)]2分别为噪声功率谱密度的均值与均值平方;式中,gaminv为MATLAB中的伽玛分布CDF逆函数来求阈值,表达式为:X=gaminv(P,A,B)式(5)的A和B分别为伽玛分布的形状参数和尺度参数;PFA为纯噪声的虚警概率(也就是将噪声误判成语音的概率),定义如下:
varvk为噪声方差,Pvv,k(fl)和
分别为噪声的PSD值及其指数平均值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510885221.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种编程监控的装置
- 下一篇:一种声音分析方法及装置