[发明专利]一种静音检测方法和装置有效

申请号：	200610116315.8	申请日：	2006-09-21
公开（公告）号：	CN101149921A	公开（公告）日：	2008-03-26
发明（设计）人：	黄鹤云;李昙;林福辉	申请（专利权）人：	展讯通信（上海）有限公司
主分类号：	G10L11/02	分类号：	G10L11/02
代理公司：	上海专利商标事务所有限公司	代理人：	陈亮
地址：	201203上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种静音检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种信号检测方法，尤其涉及一种从音频帧的时间序列中检测识别语音和噪声的方法。

背景技术

音频信号的传输基本以图1的形式进行。如图1所示，首先必须对音频信号进行静音检测，其目的就是从音频的时间序列中检测或识别出语音和噪声。之所以需要利用静音检测对语音和噪声作区分，是因为一般的音频时间序列中含有大量的噪声，有时候甚至达到50％，若对噪声和语音用同一个编解码方式则显得很浪费也不合理。区分出语音和噪声后分别对其进行不同的编解码，既节省比特数也节省了一定的运算量。

静音检测方法一般包括两个阶段，如图2所示，分为信号特征提取阶段11和语音/噪声决策阶段12。静音检测首先接收一个输入的音频，在信号特征提取阶段11将音频信号的相关特征提取出来，然后在语音/噪声决策阶段12对这些相关特征进行分析，识别出是否存在语音，最后将识别结果作为输出。很多语音编解码标准例如G.729和AMR-WB中都规定了静音检测的算法。G.729标准里规定的静音检测算法包括了过零率提取、低频能量提取、总能量提取和谱距离提取。AMR-WB标准里则采用信号在不同频带里的能量和开环基音特征进行提取。在特征提取以后，它们都是采用多边界决策和hangover平滑进行最终的决策。它们有一个共同的缺点：在静音检测之前，必须对每一帧音频信号进行一次线性预测(LinearPrediction，LP)分析，而一次线性预测所需要的时间是O(N²)，其中N是LP分析的阶数。尽管对于含有语音的帧，本来就是要在语音编码阶段做LP分析，所以在静音检测的时候做LP分析并不是时间上的浪费。但是对于仅含噪声的帧来说，并不需要做LP分析，因此在静音检测时做一次LP分析则是没有必要的，是一种浪费。

发明内容

本发明的目的在于解决上述问题，提供了一种静音检测方法和装置，它避免了对仅含噪声的音频帧做多余的线性预测分析，具有较好的检测率和低复杂性。

本发明的技术方案为：本发明提供了一种静音检测方法，用于对一个音频帧序列进行检测，识别出存在语音信号的音频帧和只含有噪声的音频帧，所述检测方法包括：

(1)第一帧音频进行预处理；

(2)接收下一帧音频作为当前的音频帧；

(3)根据N阶线性预测系数计算线性预测加权能量，其中N为自然数；

(4)根据线性预测加权能量判断是否存在语音信号，若存在则说明当前帧是语音且继续下一步，否则识别出当前帧是噪声并转入步骤(6)；

(5)将当前帧进行线性预测分析得出该帧自身的N阶线性预测系数，以替换原来步骤(3)中的N阶线性预测系数；

(6)判断当前帧是否是帧序列中的最后一帧，若是则结束，否则转入步骤(2)。

上述的静音检测方法，其中，步骤(1)进一步包括：(a)第一帧音频进行线性预测分析，得出N阶线性预测系数；(b)根据N阶线性预测系数计算第一帧的线性预测加权能量；(c)根据线性预测加权能量判断是否存在语音信号。

上述的静音检测方法，其特征在于，音频帧的线性预测加权能量的计算过程包括：

根据N阶线性预测系数a₁～a_N建立n×n维的矩阵A，其中n为当前帧的采样点个数，矩阵A为：A＝[K_ij]，其中1≤i，j≤n且i，j为自然数，当i-j＝0时K_ij＝1，当i-j＜0或i-j＞N时K_ij＝0，当0＜i-j≤N时K_ij＝a_i-j；