[发明专利]用于语音活动检测的检测器和方法在审
申请号: | 201510006946.3 | 申请日: | 2010-10-18 |
公开(公告)号: | CN104485118A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 马丁·绍尔斯戴德 | 申请(专利权)人: | 瑞典爱立信有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 袁飞 |
地址: | 瑞典斯*** | 国省代码: | 瑞典;SE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 活动 检测 检测器 方法 | ||
分案申请说明
本申请是申请日为2010年10月18日、申请号为201080047231.8(国际申请号PCT/SE2010/051118)的、题为“用于语音活动检测的检测器和方法”的发明专利申请的分案申请。
技术领域
本发明涉及语音活动检测方法和语音活动检测器,且更具体地涉及用于处理例如非平稳背景噪声的增强语音活动检测器。
背景技术
在用于对话语音的语音编码系统中,通常使用非连续发送(DTX)来增加编码的效率。原因是对话语音包含了大量被嵌入语音中的停顿,例如当一个人在说话而另一个人在聆听时。因此在DTX的情况下,语音编码器平均仅在大约50%的时间上是活动的,且可以使用舒适噪声对其余时间进行编码。具有该特征的一些示例编解码是AMR NB(自适应多速率窄带)。
对于高质量DTX操作,即,在没有劣化的语音质量的情况下,在输入信号中检测到语音的周期是重要的。这是通过语音活动检测器(VAD)来实现的。图1示出了一般VAD 180的整体框图,其获取根据具体实现被分为5至30ms的数据帧的输入信号100作为输入,并产生VAD判决作为输出160。即,VAD判决160是针对每帧的该帧是包含语音还是噪声的判决。
通用VAD 180包括提供子带能量估计的背景估计器130以及提供特征子带能量的特征提取器120。对于每一帧,通用VAD计算特征,且为了识别活动帧,将当前帧的特征与该特征对于背景信号的“表现”的估计进行比较。
由初级语音活动检测器140来作出初级判决“vad_prim”150,且初级判决“vad_prim”150基本上就是对当前帧的特征与(根据之前的输入帧估计出的)背景特征的比较,其中,大于阈值的差异引起活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对来自初级VAD的VAD判决进行扩展,以形成最终VAD判决“vad_flag”160,即也将较早的VAD判决考虑在内。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“突发语音”(speech burst)的后端截断(backend clipping)。然而,该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级检测器的阈值以及尾响添加的长度。
存在可以用于VAD检测的大量不同的特征,一个特征是只查看帧能量,并将其与阈值进行比较,以判决该帧是否包括语音。该方案在SNR良好的条件下正常工作,但是在低SNR情况下则不能正常工作。在低SNR下,其代之以要求使用对语音和噪声信号的特性进行比较的其它度量。对于实时实现而言,VAD功能的附加要求在计算上是复杂的,且这在标准编解码(例如AMR NB、AMR WB(自适应多速率宽带)以及G.718(ITU-T建议嵌入式可扩缩语音和音频编解码))中反映为对子带SNR VAD的频繁表示上。
尽管基于子带SNR的VAD将不同子带的SNR组合为与用于初级判决的阈值进行比较的度量。在基于子带的VAD中,针对每个子带确定SNR,且基于这些SNR来确定组合SNR。组合SNR可以是在不同子带上的所有SNR的和。还存在已知的解决方案,其中,将具有不同特性的多个特征用于初级判决。然而,在这两种情况下,都只存在一个初级判决,用于添加适应于输入信号条件的尾响,以形成最终判决。此外,很多VAD具有用于静默检测的输入能量阈值,即,针对足够低的输入电平,强制初级判决为不活动状态。
对于基于子带SNR原则的VAD,已经表明:在子带SNR计算中引入非线性(所谓重要性阈值)可以增强对于非平稳噪声条件(嘈杂声、办公室)下的VAD性能。非平稳噪声对于所有VAD而言都是困难的,特别是在低SNR条件下,导致相比于实际语音的更高VAD活动,且从系统角度讲导致了减小的容量。在非平稳噪声中,最困难的是嘈杂噪声,且原因是其特性与VAD被设计用来检测的语音信号相对接近。嘈杂噪声的特性通常在于与前景说话者的语音强度相对的SNR和背景说话者的数目,其中,常见定义(如在主观评估中使用的)是嘈杂声应当具有40个或更多的背景说话者,其基本出发点是:对于嘈杂声,应当不可能听出嘈杂噪声中包括的任何说话者所说的内容(不应当有任何嘈杂声说话者是能被理解的)。还应当注意到随着嘈杂噪声中说话者数目的增加,其变得更为平稳。在只有1个(或较少)说话者在背景中的情况下,通常将他们称为干扰说话者。另一问题是嘈杂噪声可以具有VAD算法不会抑制的与一些音乐片段非常相似的频谱变化特性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞典爱立信有限公司,未经瑞典爱立信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510006946.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:能实现灯光配合的背景音乐盒
- 下一篇:语音质量评价设备、方法和系统