[发明专利]用于低比特率音频编码的语音/音乐检测器有效
申请号: | 200610113117.6 | 申请日: | 2006-09-15 |
公开(公告)号: | CN1920947A | 公开(公告)日: | 2007-02-28 |
发明(设计)人: | 张斌;窦维蓓 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/08;G10L15/02;G10L11/00;G10L19/00;G10L19/08;G10L19/12;G10L19/14 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于音频信号识别技术领域,其特征在于,在提取短时特征向量利用短时决策树进行语音信号和音乐信号判别后,还利用一个FIFO来进行长时特征向量的特征提取和长时决策树的判断。其中,短时特征向量包括短时能量函数和短时频谱分布函数;长时特征向量包括能量方差、能量过中值率、低能量比率、频谱分布变化率和低频谱分布比率;所述短时频谱分布参数是经过设定的多分辨率小波分析滤波器结合降采样来进行子带分解的。实验证明,本发明测试得到的平均误检率为0.8%。 | ||
搜索关键词: | 用于 比特率 音频 编码 语音 音乐 检测器 | ||
【主权项】:
1、用于低比特率音频编码的语音/音乐检测器其特征在于,所述检测器是在一个数字集成电路上实现的,其中包含:短时特征提取部分:输入信号是当前帧缓冲区输出的以帧长为单位的音频流,经过计算,得到短时音频特征向量,其中包括以下分量:(a),短时能量函数E[n]:E [ n ] = log 10 ( Σ n = 1 N ( x [ n ] ) 2 ) , ]]> x[n]是离散化的输入音频信号,N是计算包含的音频信号样点数,N=Fs×帧长,Fs为音频采样率,单位是kHz,帧长的单位是时间ms;(b),短时频谱分布参数SP:在设定的采样率下,先把每帧音频信号按设定的技术进行多分辨率子带分解,得到频带由低到高的l级子带,用1,2,...,l表示,所述l级子带是通过阶数与设定级数相对应的Daubechies小波构建的分析滤波器组对原信号进行滤波后得到的。其次,按下式计算短时频谱分布参数SP: SP21[n]=E2[n]-E1[n], SP31[n]=E3[n]-E1[n], … SPl1[n]=El[n]-E1[n].E1[n],E2[n],…,El[n]分别为各子带的短时能量函数;从而,得到短时特征向量Fs[n]:Fs[n]=(E[n],SP21[n],SP31[n],…,SPl1[n])T;先进先出存储单元部分:是一个存储单元序列,序列的长度单元是秒,该序列以帧为单位接收从短时特征提取输出的每帧的E1[n],E2[n],…,El[n];比较器输入是所述序列中的判断计数器输出的先进先出存储单元部分FIFO是否满的标志,与预设的FIFO长度比较后,若FIFO未满,该比较器便向所述短时特征提取部分输出允许短时特征输出的信号;长时特征提取部分:设有一个控制信号输入端,接收允许输出长时特征的信号,还有一个数据输入端,从FIFO输入En[n-i],i=0,1,...,N-1,i是用FIFO内采样点序号表示的帧长序号,所述长时特征提取部分在接收到所述比较器输出的FIFO已满的信号后,计算长时特征向量,其中包括:(c),能量方差VarE[n]:Var E [ n ] = 1 N - 1 Σ i = 0 N - 1 ( E [ n - i ] - E ‾ [ n ] ) 2 , ]]> E[n]为短时能量函数的平均值,E ‾ [ n ] = 1 N Σ i = 0 N - 1 E [ n - i ] . ]]> (d),能量过中值率CREmed:CR Emed [ n ] = 1 2 Σ i = 0 N - 2 ( | sgn ( E [ n - i ] - E med ) - sgn ( E [ n - i - 1 ] - E med ) | ) , ]]> Emed是短时能量函数的中值,在E[n-N+1]到E[n]之间选取,sgn(x)为符号函数,(e),低能量比率RElow:R Elow [ n ] = Σ i = 0 N - 1 ( E [ n - i ] < E th ) N , ]]> Eth为低能量阈值,取-3.7;(f),频谱分布变化率SF:SF [ n ] = Σ i = 0 N - 2 | | S [ n - i ] - S [ n - i - 1 ] | | , ]]> ‖·‖为2范数,‖x‖=xTx;(g),低频谱分布比率RSPlow:R SPlow [ n ] = Σ i = 0 N - 1 ( E UV [ n - i ] < E UVth ) N , ]]> EUV[n]函数定义为:EUV[n]=log10(未取对数的清音部分对应子带的短时能量之和)-log10(未取对数的浊音部分对应子带的短时能量之和),所述清音部分对应子带与浊音部分对应子带之间有一个共同的过渡区;EUVth为低能量阈值,取-2.5;从而得到长时特征的特征向量: FL[n]=(VarE[n],CREmed[n],RElow[n],SF[n],RSPlow[n])T;短时决策树部分,是一个二值决策树,判断从短时特征提取部分接收的短时特征向量是语音还是音乐信号的,该决策树上各节点的阈值是预先通过对大量样本的训练得到的,是已知值,而且每一个节点用一个为该节点设定的上限阈值来判断一个短时特征分量,满足阈值判断规则,则沿着左侧树枝往下前进到下一个节点,或遇到端点做出判断;否则,则沿着右侧的树枝往下前进到下一个节点,或是遇到端点做出判断;从而最后对是语音信号还是音乐信号来做出判断,并输出;长时决策树部分,是一个二值决策树,判断从长时特征提取部分接收的长时特征向量是语音信号还是音乐信号的,判断方法与短时决策树同。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610113117.6/,转载请声明来源钻瓜专利网。