[发明专利]自适应地检测输入音频信号中的话音活动的方法和设备有效
申请号: | 201080030027.5 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102959625B9 | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 王喆 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 检测 输入 音频 信号 中的 话音 活动 方法 设备 | ||
技术领域
本发明涉及一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法和设备,尤其涉及一种使用经非线性处理的子带分段信噪比参数的话音活动检测方法和设备。
背景技术
话音活动检测(VAD)一般来说是一种供检测信号中的话音活动的技术。话音活动检测器广泛用于电信行业中。话音活动检测器的功能是在通信信道中检测例如语音或音乐等有源信号的有无。话音活动检测器可应用于通信网络内,以使所述网络可在不存在有源信号的周期中压缩传输带宽,或者根据指示是否存在有源信号的话音活动检测决策执行其它处理。话音活动检测器可将从输入信号中提取的特征参数或特征参数集与对应的阈值进行比较,并基于比较结果来确定所述输入是否包括有源信号。话音活动检测器的性能在很大程度上取决于所使用的特征参数的选择。已有许多特征参数被提出应用于话音活动检测,例如基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数。一般来说,基于能量的参数提供良好的话音活动检测性能。近年来,作为一种基于能量的参数的基于子带SNR的参数已广泛用于电信行业中。在基于子带SNR的话音活动检测器中,检测用于输入帧的每一子频带的SNR,并添加所有子带的SNR以提供分段SNR。此分段SNR参数SSNR可与阈值进行比较,以作出话音活动检测决策VADD。所使用的阈值通常为变量,其根据输入信号的长期SNR或背景噪声的电平而自适应。
在最近完成的ITU-T规范G.720.1中,已通过应用非线性处理而改进常规SSNR参数,从而获得经修改的SSNR。还将计算出的经修改的分段SNR与阈值进行比较,所述阈值是从根据输入信号的长期SNR、背景噪声变化以及话音活动检测操作点的阈值表而确定的,其中VAD操作点定义有源检测与无源检测之间的VAD决策的权衡,举例来说,质量优先的操作点将使VAD支持有源信号的决策,且反之亦然。
尽管由G.720.1所使用的经修改的分段SNR参数改进了话音活动检测的性能,但不稳定和低SNR背景环境中的VAD性能仍需要改进。常规话音活动检测器经设计以平衡其在各种背景噪声条件下的性能。因此,常规话音活动检测器在特定条件下尤其是在不稳定和低SNR背景环境中的性能不够理想。
因此,本发明的目的是提供一种具有高VAD性能的用于检测输入音频信号中的话音活动的方法和设备。
发明内容
根据第一,本发明提供一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法,所述方法包括以下步骤:
(a)至少基于所接收的所接收的输入音频信号的输入帧确定所述输入信号的噪声特性,
(e)确定适于输入音频信号的所述噪声特性的或根据所述噪声特性而选择的VAD参数(vp);以及
(f)比较所获取的VAD参数及阈值进行,以提供话音活动检测决策。
第一实施方案形式可将基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数用作VAD参数。
在本发明的第一可实施方案中,本发明提供一种用于自适应性地检测由帧组成的输入音频信号中的话音活动的方法,所述方法包括以下步骤:
(a)所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧而确定所述输入信号的噪声特性,
(b)将所接收的所述音频信号的输入帧分成若干个子带,
(c)获取所述输入帧的每一子带的SNR,
(d)基于每一子带的所述相应子带的SNR而使用自适应函数来计算子带特定参数,其中,所述自适应函数中的至少一个参数是根据所述噪音特性所选取的,
(e)通过添加子带特定参数而获取作为所述VAD参数的经修改的分段SNR;以及
(f)将所获取的经修改的分段SNR与阈值进行比较,以提供VAD决策。
根据本发明的第一,本发明提供效率更高且质量更好的VAD。VAD的效率是检测噪声特性(例如,背景噪声)的能力,而VAD的质量与检测有源信号(例如,输入音频信号中的语音或音乐)的能力有关。
在本发明的第一可实施方案中,所述所确定输入音频信号的噪声特性由所述输入音频信号的长期SNR形成。
在本发明的第一另一可实施方案中,所述所确定输入音频信号的噪声特性由所述输入音频信号的背景噪声变化形成。
在本发明的第一又一可实施方案中,所述所确定输入音频信号的噪声特性由所述输入音频信号的长期SNR和背景噪声变化的组合形成。
在本发明的第一实施方案中,用于计算子带特定参数的自适应函数由非线性函数形成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080030027.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型游戏机鼓的结构
- 下一篇:一种含有改性复配粉体的滤清器用胶片粘合剂