[发明专利]一种基于似然比测试的噪声鲁棒性端点检测方法无效

申请号：	201310751241.5	申请日：	2013-12-31
公开（公告）号：	CN103730124A	公开（公告）日：	2014-04-16
发明（设计）人：	包旭雷;李为;姚国勤;朱杰;董斌;杭乐	申请（专利权）人：	上海交通大学无锡研究院
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/78
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	许方
地址：	214135 江苏省无***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于似然比测试的噪声鲁棒性端点检测方法，分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进，使得提出的算法相对于现有技术在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。本发明所述的方法与基于谐波特征的多观测似然比测试算法具有相似的语音边界检测正确率，但却比基于谐波特征的多观测似然比测试算法具有更好的声音检测精度，从而验证本方法要比传统的方法在性能上更为优异。同时，本方法在15dB和25dB的信噪比下具有相似的性能，说明它对噪声具有很好的鲁棒性。本方法在实际环境中可以作为语音识别或者声纹识别系统的前端预处理重要的有效方法，拥有很好的应用价值。
搜索关键词：	一种基于测试噪声鲁棒性端点检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于似然比测试的噪声鲁棒性端点检测方法，其特征在于：通过维纳滤波器对带噪语音信号进行语音增强，语音增强后的带噪语音信号x(n)通过干净语音s(n)和干扰噪声d(n)叠加得到：x(n)=s(n)+d(n)其中，n为时间采样索引，所述干净语音信号和干扰噪声可以具备统计独立且均值为零的特性，带噪语音的傅立叶变换表示为：H₀：X(m，k)=N(m，k);H₁：X(m，k)=S(m，k)+N(m，k) (1)其中，X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子，m为帧索引，k为帧内的各个频段值，H₀和H₁分别表示非语音帧和语音帧；干净语音信号和噪声信号的概率密度都满足高斯分布时，观测信号X(m,k)在H₀和H₁下的概率密度函数为p(Xm,k|H0)=1πσN2(m,k)exp(-|X(m,k)|2πσN2(m,k));]]>p(Xm,k|H1)=1π(σN2(m,k)+σS2(m,k))exp(-|X(m,k)|2π(σN2(m,k)+σS2(m,k)))---(2)]]>其中σS2(m,k)=E{|S(m,k)|2}]]>为语音信号的功率谱，σN2(m,k)=E{|N(m,k)|2}]]>为噪声信号的功率谱；该帧第k频段的似然比值为:Λm,k=Δp(Xm,k|H0)p(Xm,k|H1)=11+ξm,kexp(γm,kξm,k1+ξm,k)---(3)]]>其中，ξm,k=σS2(m,k)/σN2(m,k),γm,k=|X(m,k)|2/σN2(m,k)]]>分别表示先验信噪比和后验信噪比，且先验信噪比ξ_m，k和后验信噪比γ_m，k在直接决策估计器中存在着以下关系:ξ~m,kDD≈α|S~(m-1,k)|2σN2(m-1,k)+(1-α)max{γm,k,0}---(4)]]>其中，α是一个常数平稳因子，表示前一帧的语音信号估计，表示前一帧的噪声功率谱；设定阈值η，将其与似然比的值相比较来确定当前帧为语音段或非语音段，当似然比的值大于阈值时，判定该帧为语音帧，当似然比的值小于阈值时，判定该帧为非语音帧，具体通过如下公式表示：其中，K为频段总数；m帧的对数似然比为：lm=1kΣk=0K-1logΛm,k=1KΣk=0K-1p(Xm,k|H0)p(Xm,k|H1)]]>l_m={l_m-M,l_m-M+1...l_m+M}表示以l_m为中心的连续2M+1帧，则以这2M+1个对数似然比为对象的判决规则为:其中，f_r指代每一帧，对于其中的第k频段下的对数似然比logΛ_m，k，将观测信号在H₁和H₀的概率代入其中得到:logΛ_m，k≈γ_m，k-1-logγ_m，k 先验信噪比ξ_m，k由后验信噪比通过最大似然估计算法得到，即：ξm,kML=γm,k-1]]>因此，对数似然比的值取决于噪声能量谱的精度；当信噪比低时，噪声能量谱变大，通过降低选取的阈值η来降低发声段误判概率；反之，通过增大阈值η来和高信噪比信号进行匹配；带噪语音功率谱谱Ω(m，k)由带噪信号功率谱|X(m，k）|²平滑得到，平滑因子α(m，k)为时频相关函数，则：Ω(m，k）=α(m，k)Ω(m，k)+(1-α(m,k))|X(m,k)|²其中，α(m,k)是一个与时频相关的平稳因子，为每帧信号最小噪声功率谱，由最小统计的噪声估计得到；最终得出，噪声能量谱相关的阈值η_m为:ηm=αη×(1KΣk=0K-1σNmin2(m,k))-1]]>其中，α_η是该阈值的一个常系数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学无锡研究院，未经上海交通大学无锡研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310751241.5/，转载请声明来源钻瓜专利网。

上一篇：交交变频装置电流断续非线性补偿方法
下一篇：一种基于公差参数化的工件定位误差分析与调整方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于似然比测试的噪声鲁棒性端点检测方法无效

专利文献下载