[发明专利]用于低比特率音频编码的语音/音乐检测器有效

申请号：	200610113117.6	申请日：	2006-09-15
公开（公告）号：	CN1920947A	公开（公告）日：	2007-02-28
发明（设计）人：	张斌;窦维蓓	申请（专利权）人：	清华大学
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/08;G10L15/02;G10L11/00;G10L19/00;G10L19/08;G10L19/12;G10L19/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于音频信号识别技术领域，其特征在于，在提取短时特征向量利用短时决策树进行语音信号和音乐信号判别后，还利用一个FIFO来进行长时特征向量的特征提取和长时决策树的判断。其中，短时特征向量包括短时能量函数和短时频谱分布函数；长时特征向量包括能量方差、能量过中值率、低能量比率、频谱分布变化率和低频谱分布比率；所述短时频谱分布参数是经过设定的多分辨率小波分析滤波器结合降采样来进行子带分解的。实验证明，本发明测试得到的平均误检率为0.8％。
搜索关键词：	用于比特率音频编码语音音乐检测器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1、用于低比特率音频编码的语音/音乐检测器其特征在于，所述检测器是在一个数字集成电路上实现的，其中包含：短时特征提取部分：输入信号是当前帧缓冲区输出的以帧长为单位的音频流，经过计算，得到短时音频特征向量，其中包括以下分量：(a)，短时能量函数E[n]：E[n]=log10(Σn=1N(x[n])2),]]>x[n]是离散化的输入音频信号，N是计算包含的音频信号样点数，N＝F_s×帧长，F_s为音频采样率，单位是kHz，帧长的单位是时间ms；(b)，短时频谱分布参数SP：在设定的采样率下，先把每帧音频信号按设定的技术进行多分辨率子带分解，得到频带由低到高的l级子带，用1，2，...，l表示，所述l级子带是通过阶数与设定级数相对应的Daubechies小波构建的分析滤波器组对原信号进行滤波后得到的。其次，按下式计算短时频谱分布参数SP： SP₂₁[n]＝E₂[n]-E₁[n]， SP₃₁[n]＝E₃[n]-E₁[n]， … SP_l1[n]＝E_l[n]-E₁[n].E₁[n]，E₂[n]，…，E_l[n]分别为各子带的短时能量函数；从而，得到短时特征向量F_s[n]：F_s[n]＝(E[n]，SP₂₁[n]，SP₃₁[n]，…，SP_l1[n])^T；先进先出存储单元部分：是一个存储单元序列，序列的长度单元是秒，该序列以帧为单位接收从短时特征提取输出的每帧的E₁[n]，E₂[n]，…，E_l[n]；比较器输入是所述序列中的判断计数器输出的先进先出存储单元部分FIFO是否满的标志，与预设的FIFO长度比较后，若FIFO未满，该比较器便向所述短时特征提取部分输出允许短时特征输出的信号；长时特征提取部分：设有一个控制信号输入端，接收允许输出长时特征的信号，还有一个数据输入端，从FIFO输入E_n[n-i]，i＝0，1，...，N-1，i是用FIFO内采样点序号表示的帧长序号，所述长时特征提取部分在接收到所述比较器输出的FIFO已满的信号后，计算长时特征向量，其中包括：(c)，能量方差Var_E[n]：VarE[n]=1N-1Σi=0N-1(E[n-i]-E‾[n])2,]]>E[n]为短时能量函数的平均值，E‾[n]=1NΣi=0N-1E[n-i].]]>(d)，能量过中值率CR_Emed：CREmed[n]=12Σi=0N-2(|sgn(E[n-i]-Emed)-sgn(E[n-i-1]-Emed)|),]]>E_med是短时能量函数的中值，在E[n-N+1]到E[n]之间选取，sgn(x)为符号函数，(e)，低能量比率R_Elow：RElow[n]=Σi=0N-1(E[n-i]<Eth)N,]]>E_th为低能量阈值，取-3.7；(f)，频谱分布变化率SF：SF[n]=Σi=0N-2||S[n-i]-S[n-i-1]||,]]>‖·‖为2范数，‖x‖＝x^Tx；(g)，低频谱分布比率R_SPlow：RSPlow[n]=Σi=0N-1(EUV[n-i]<EUVth)N,]]>E_UV[n]函数定义为：E_UV[n]＝log₁₀(未取对数的清音部分对应子带的短时能量之和)-log₁₀(未取对数的浊音部分对应子带的短时能量之和)，所述清音部分对应子带与浊音部分对应子带之间有一个共同的过渡区；E_UVth为低能量阈值，取-2.5；从而得到长时特征的特征向量： F_L[n]＝(Var_E[n]，CR_Emed[n]，R_Elow[n]，SF[n]，R_SPlow[n])^T；短时决策树部分，是一个二值决策树，判断从短时特征提取部分接收的短时特征向量是语音还是音乐信号的，该决策树上各节点的阈值是预先通过对大量样本的训练得到的，是已知值，而且每一个节点用一个为该节点设定的上限阈值来判断一个短时特征分量，满足阈值判断规则，则沿着左侧树枝往下前进到下一个节点，或遇到端点做出判断；否则，则沿着右侧的树枝往下前进到下一个节点，或是遇到端点做出判断；从而最后对是语音信号还是音乐信号来做出判断，并输出；长时决策树部分，是一个二值决策树，判断从长时特征提取部分接收的长时特征向量是语音信号还是音乐信号的，判断方法与短时决策树同。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200610113117.6/，转载请声明来源钻瓜专利网。

上一篇：可以直接注射的注射药瓶
下一篇：包含具有CB₁－拮抗活性的4,5－二氢－1H－吡唑衍生物的肥胖症的联合治疗

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于低比特率音频编码的语音/音乐检测器有效

专利文献下载