[发明专利]一种基于似然比测试的噪声鲁棒性端点检测方法无效
申请号: | 201310751241.5 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103730124A | 公开(公告)日: | 2014-04-16 |
发明(设计)人: | 包旭雷;李为;姚国勤;朱杰;董斌;杭乐 | 申请(专利权)人: | 上海交通大学无锡研究院 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/78 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 214135 江苏省无*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于似然比测试的噪声鲁棒性端点检测方法,分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进,使得提出的算法相对于现有技术在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。本发明所述的方法与基于谐波特征的多观测似然比测试算法具有相似的语音边界检测正确率,但却比基于谐波特征的多观测似然比测试算法具有更好的声音检测精度,从而验证本方法要比传统的方法在性能上更为优异。同时,本方法在15dB和25dB的信噪比下具有相似的性能,说明它对噪声具有很好的鲁棒性。本方法在实际环境中可以作为语音识别或者声纹识别系统的前端预处理重要的有效方法,拥有很好的应用价值。 | ||
搜索关键词: | 一种 基于 测试 噪声 鲁棒性 端点 检测 方法 | ||
【主权项】:
1.一种基于似然比测试的噪声鲁棒性端点检测方法,其特征在于:通过维纳滤波器对带噪语音信号进行语音增强,语音增强后的带噪语音信号x(n)通过干净语音s(n)和干扰噪声d(n)叠加得到:x(n)=s(n)+d(n)其中,n为时间采样索引,所述干净语音信号和干扰噪声可以具备统计独立且均值为零的特性,带噪语音的傅立叶变换表示为:H0:X(m,k)=N(m,k);H1:X(m,k)=S(m,k)+N(m,k) (1)其中,X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子,m为帧索引,k为帧内的各个频段值,H0和H1分别表示非语音帧和语音帧;干净语音信号和噪声信号的概率密度都满足高斯分布时,观测信号X(m,k)在H0和H1下的概率密度函数为p ( X m , k | H 0 ) = 1 πσ N 2 ( m , k ) exp ( - | X ( m , k ) | 2 πσ N 2 ( m , k ) ) ; ]]>p ( X m , k | H 1 ) = 1 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) exp ( - | X ( m , k ) | 2 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) ) - - - ( 2 ) ]]> 其中σ S 2 ( m , k ) = E { | S ( m , k ) | 2 } ]]> 为语音信号的功率谱,σ N 2 ( m , k ) = E { | N ( m , k ) | 2 } ]]> 为噪声信号的功率谱;该帧第k频段的似然比值为:Λ m , k = Δ p ( X m , k | H 0 ) p ( X m , k | H 1 ) = 1 1 + ξ m , k exp ( γ m , k ξ m , k 1 + ξ m , k ) - - - ( 3 ) ]]> 其中,ξ m , k = σ S 2 ( m , k ) / σ N 2 ( m , k ) , γ m , k = | X ( m , k ) | 2 / σ N 2 ( m , k ) ]]> 分别表示先验信噪比和后验信噪比,且先验信噪比ξm,k和后验信噪比γm,k在直接决策估计器中存在着以下关系:ξ ~ m , k DD ≈ α | S ~ ( m - 1 , k ) | 2 σ N 2 ( m - 1 , k ) + ( 1 - α ) max { γ m , k , 0 } - - - ( 4 ) ]]> 其中,α是一个常数平稳因子,表示前一帧的语音信号估计,表示前一帧的噪声功率谱;设定阈值η,将其与似然比的值相比较来确定当前帧为语音段或非语音段,当似然比的值大于阈值时,判定该帧为语音帧,当似然比的值小于阈值时,判定该帧为非语音帧,具体通过如下公式表示:其中,K为频段总数;m帧的对数似然比为:l m = 1 k Σ k = 0 K - 1 log Λ m , k = 1 K Σ k = 0 K - 1 p ( X m , k | H 0 ) p ( X m , k | H 1 ) ]]> lm={lm-M,lm-M+1...lm+M}表示以lm为中心的连续2M+1帧,则以这2M+1个对数似然比为对象的判决规则为:其中,fr指代每一帧,对于其中的第k频段下的对数似然比logΛm,k,将观测信号在H1和H0的概率代入其中得到:logΛm,k≈γm,k-1-logγm,k 先验信噪比ξm,k由后验信噪比通过最大似然估计算法得到,即:ξ m , k ML = γ m , k - 1 ]]> 因此,对数似然比的值取决于噪声能量谱的精度;当信噪比低时,噪声能量谱变大,通过降低选取的阈值η来降低发声段误判概率;反之,通过增大阈值η来和高信噪比信号进行匹配;带噪语音功率谱谱Ω(m,k)由带噪信号功率谱|X(m,k)|2平滑得到,平滑因子α(m,k)为时频相关函数,则:Ω(m,k)=α(m,k)Ω(m,k)+(1-α(m,k))|X(m,k)|2其中,α(m,k)是一个与时频相关的平稳因子,为每帧信号最小噪声功率谱,由最小统计的噪声估计得到;最终得出,噪声能量谱相关的阈值ηm为:η m = α η × ( 1 K Σ k = 0 K - 1 σ N min 2 ( m , k ) ) - 1 ]]> 其中,αη是该阈值的一个常系数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学无锡研究院,未经上海交通大学无锡研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310751241.5/,转载请声明来源钻瓜专利网。