[发明专利]自适应地检测输入音频信号中的话音活动的方法和设备有效

申请号：	201080030027.5	申请日：	2010-12-24
公开（公告）号：	CN102959625B9	公开（公告）日：	2017-04-19
发明（设计）人：	王喆	申请（专利权）人：	华为技术有限公司
主分类号：	G10L25/78	分类号：	G10L25/78
代理公司：	暂无信息	代理人：	暂无信息
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自适应检测输入音频信号中的话音活动方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法和设备，尤其涉及一种使用经非线性处理的子带分段信噪比参数的话音活动检测方法和设备。

背景技术

话音活动检测(VAD)一般来说是一种供检测信号中的话音活动的技术。话音活动检测器广泛用于电信行业中。话音活动检测器的功能是在通信信道中检测例如语音或音乐等有源信号的有无。话音活动检测器可应用于通信网络内，以使所述网络可在不存在有源信号的周期中压缩传输带宽，或者根据指示是否存在有源信号的话音活动检测决策执行其它处理。话音活动检测器可将从输入信号中提取的特征参数或特征参数集与对应的阈值进行比较，并基于比较结果来确定所述输入是否包括有源信号。话音活动检测器的性能在很大程度上取决于所使用的特征参数的选择。已有许多特征参数被提出应用于话音活动检测，例如基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数。一般来说，基于能量的参数提供良好的话音活动检测性能。近年来，作为一种基于能量的参数的基于子带SNR的参数已广泛用于电信行业中。在基于子带SNR的话音活动检测器中，检测用于输入帧的每一子频带的SNR，并添加所有子带的SNR以提供分段SNR。此分段SNR参数SSNR可与阈值进行比较，以作出话音活动检测决策VADD。所使用的阈值通常为变量，其根据输入信号的长期SNR或背景噪声的电平而自适应。

在最近完成的ITU-T规范G.720.1中，已通过应用非线性处理而改进常规SSNR参数，从而获得经修改的SSNR。还将计算出的经修改的分段SNR与阈值进行比较，所述阈值是从根据输入信号的长期SNR、背景噪声变化以及话音活动检测操作点的阈值表而确定的，其中VAD操作点定义有源检测与无源检测之间的VAD决策的权衡，举例来说，质量优先的操作点将使VAD支持有源信号的决策，且反之亦然。

尽管由G.720.1所使用的经修改的分段SNR参数改进了话音活动检测的性能，但不稳定和低SNR背景环境中的VAD性能仍需要改进。常规话音活动检测器经设计以平衡其在各种背景噪声条件下的性能。因此，常规话音活动检测器在特定条件下尤其是在不稳定和低SNR背景环境中的性能不够理想。

因此，本发明的目的是提供一种具有高VAD性能的用于检测输入音频信号中的话音活动的方法和设备。

发明内容

根据第一，本发明提供一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法，所述方法包括以下步骤：

(a)至少基于所接收的所接收的输入音频信号的输入帧确定所述输入信号的噪声特性，

(e)确定适于输入音频信号的所述噪声特性的或根据所述噪声特性而选择的VAD参数(vp)；以及

(f)比较所获取的VAD参数及阈值进行，以提供话音活动检测决策。

第一实施方案形式可将基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数用作VAD参数。

在本发明的第一可实施方案中，本发明提供一种用于自适应性地检测由帧组成的输入音频信号中的话音活动的方法，所述方法包括以下步骤：

(a)所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧而确定所述输入信号的噪声特性，

(b)将所接收的所述音频信号的输入帧分成若干个子带，

(c)获取所述输入帧的每一子带的SNR，