[发明专利]一种基于噪声功率谱Gamma分布统计模型的有音区检测方法有效
申请号: | 201510885221.6 | 申请日: | 2015-12-03 |
公开(公告)号: | CN105513614B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李宇;林胜义;谭洪舟 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528300 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 噪声 功率 gamma 分布 统计 模型 音区 检测 方法 | ||
本发明公开了一种基于噪声功率谱Gamma分布统计模型的有音区检测(Voice Activation Detection,VAD)方法,属于语音信号处理技术领域。现有基于统计模型的VAD算法通常不考虑语音统计信息,仅仅利用噪声功率谱(Power Spectral Density,PSD)的统计模型来检测活动语音,常用的噪声PSD统计模型为左右对称的Gaussian模型,不能较好地体现噪声PSD分布的长拖尾特性,不利于处理Babble等非平稳噪声。本发明采用伽玛分布(Gamma Distribution)作为噪声分布统计模型,比高斯分布(Gaussian Distribution)和瑞利分布(Rayleigh Distribution)具有更好的长拖尾特性拟合效果,改进后的VAD算法性能更优。
技术领域
本发明涉及语音信号处理技术领域,更具体地,涉及一种基于噪声功率谱Gamma分布统计模型的有音区检测方法。
背景技术
活动语音检测(Voice Activation Detection,VAD),又称有音区检测,是一种从传输语音信号中识别和消除长时间静音期(或者说从声音信号流里检测出有用信号)的技术。VAD技术的应用能避免无用信号的传输,从而降低了语音信号编码速率和节省了通信带宽,而且有利于维护语音端到端的时延、减少移动通信设备的能耗和加强噪声抑制能力,因此VAD被广泛用于语音编码、语音识别和语音增强等语音处理算法中。
基于统计模型的VAD算法是常用一种VAD方法,该方法假定语言和噪声分别服从某种统计分布模型,然后用似然比测试来检测活动语音。在该算法中,常用的假设统计模型为Gaussian或Laplacian模型,不能较好地体现噪声PSD分布的拖尾特性,而这种拖尾特征的缺失在非平稳噪声环境下表现得尤为突出,使得基于该假设统计模型的VAD算法不利于处理Babble等非平稳噪声。因此,采用合适的统计模型来实现VAD技术,是改善统计模型VAD算法性能的关键。
发明内容
针对基于Gaussian或Laplacian统计模型的VAD算法不能很好拟合噪声PSD分布特性而且不利于处理Babble等非平稳噪声的问题,本发明提出了一种基于噪声功率谱Gamma分布统计模型的有音区检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于噪声功率谱Gamma分布统计模型的有音区检测方法,包括:
1)获取含噪语音的信号z(n),并进行分帧处理,得到第k帧含噪的语音zk(n);
2)计算第k语音帧频率为fl时的功率谱密度(PSD)估计值Pzz,k(fl);
3)对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P'ZZ,k(fl);判断当前语音帧是否为纯噪声,若是,则更新第k帧噪声频率为fl的PSD值Pvv,k(fl)为高频带的PSD估计值P'ZZ,k(fl)并跳转到步骤4);否则,则不更新噪声fl频率的PSD值Pvv,k(fl)跳转到步骤4);
4)对噪声fl频率的PSD估计值Pvv,k(fl)求指数平均值计算噪声PSD估计值Pvv,k(fl)的平方再取指数平均得噪声方差值varvk(fl);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510885221.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种编程监控的装置
- 下一篇:一种声音分析方法及装置