[发明专利]基于SVM和GMM的特定音频事件分层泛化识别方法无效
申请号: | 201210226349.8 | 申请日: | 2012-06-29 |
公开(公告)号: | CN102799899A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 罗森林;王坤;潘丽敏;谢尔曼 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。本方法首先获得训练样本的音频特征向量文件,然后分别使用GMM方法和SVM方法对大量种类繁多的训练样本的音频特征向量文件进行模型训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练。最后使用GMM模型和SVM分类器对待识别音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。本方法解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题,可应用于特定音频检索和基于内容的网络音频监管。 | ||
搜索关键词: | 基于 svm gmm 特定 音频 事件 分层 泛化 识别 方法 | ||
【主权项】:
1.基于SVM和GMM的特定音频事件分层泛化识别方法,其特征在于:包括如下步骤:步骤1,获得训练样本的音频特征向量文件;所述训练样本根据音频事件种类的不同,分别标记为不同的类别标签;每类训练样本为多个相同类型音频事件原始信号的集合,并且不同训练样本之间没有交叠或者重合;步骤2,分别使用GMM方法和SVM方法对步骤1得到的多种训练样本的音频特征向量文件进行训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练;针对某一类型音频事件,建立GMM模型和SVM分类器的具体方法为:步骤2.1,对步骤1得到的所有训练样本的音频特征向量文件,使用最大似然估计通过最大期望算法,得到该类型音频事件的高斯混合模型,并将其转化为求最大似然函数:Σ i = 1 N log { Σ k = 1 K ω k N ( x | μ k , Σ k ) } ]]> 式中,N代表N个训练样本,K是高斯混合模型中高斯分布的数量;x是d维数据矢量;ωk是第k个高斯分布的先验概率,且满足N(x|μk,Σk)是均值矢量为μk、协方差矩阵为Σk的高斯密度函数;根据所有训练样本的音频特征向量文件,使用K均值聚类的方法得到ωk、μk、Σk的初始值,最后由最大期望算法通过迭代为正负类别音频事件分别确定一组ωk、μk、Σk;优化调整GMM模型中ωk、μk、Σk,使得最大似然函数的值满足音频识别要求的阈值,得到一组ωk、μk、Σk,完成GMM建模过程;步骤2.2,对步骤1得到训练样本的音频特征向量文件,使用二次型寻优方法,将在低维向量空间中线性不可分的训练样本映射到高维的特征空间,在高维空间中使用径向基核函数实现原低维向量空间中的非线性判决函数,最终得到SVM分类器为:f ( x ) = Σ i = 1 n y i α i K ( x * x i ) + b * ]]> 其中,n是特征向量的维数,αi=(α1,α2,......,αn)是拉格朗日乘子,b*是最优超平面的偏移量,yi是类别标签值;K(x*xi)是对应的内积核函数,在训练样本为线性可分情况下,K(x*xi)取x*xi;步骤3,利用步骤2离线训练得到的GMM模型和SVM分类器,对待测音频事件流进行在线识别与融合判决,输出最终的识别结果;步骤3.1,首先对待识别音频事件流文件进行预处理,完成待识别音频事件流文件的分帧与分段,接着进行音频特征提取;待识别音频事件流提取的音频特征参数类别与离线训练过程中训练样本的音频特征参数类别相同,最后形成待识别音频事件流的包含多个音频特征片段的音频特征向量文件;步骤3.2,使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性;其具体识别过程为:步骤3.2.1,对于待识别的音频片段的特征向量序列O={O1,O2,......,OT},该音频片段为第l个音频事件的后验概率为:p ( λ l | o ) = p ( o | λ l ) p ( λ l ) p ( o ) ]]>= p ( o | λ l ) p ( λ l ) Σ l = 1 N p ( o | λ l ) p ( λ l ) ]]> 其中:p(λl)为第l个音频事件的先验概率;p(o)为所有音频事件条件下特征矢量集o的概率;p(o|λl)为第l个音频事件产生的特征矢量集o的条件概率;对于正类别音频事件,类别标签l=1;对于负类别音频事件,l=2;识别结果由最大后验概率给出,即n * = arg max l = 1,2 p ( λ l | o ) ]]> 式中,n*表示识别判决结果;由于每个音频事件的先验概率相等,此外,p(o)也相等;则识别结果等式可化为:n * = arg max l = 1,2 p ( o | λ l ) ]]> 这样,最大后验概率准则就转化为对数似然函数:L(o|λl)=logp(o|λl)l=1,2GMM模型识别的任务就是由如下判决公式计算:n * = arg max l = 1,2 Σ k = 1 K log p ( o k | λ l ) ]]> 其中:p(ok|λl)为第l个音频事件产生的特征矢量集Ok的条件概率;系统按照以上步骤3.2.1的过程对每一段的特征向量得到的对数累加,使得最大的类别标签就是最后识别结果,最后输出GMM模型识别的类别标签属性结果;步骤3.2.2,将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别,对每一段的特征向量,根据f(x)的正负符号判决特征向量的类别属性,正数对应正类型,0和负数对应负类型;最后输出SVM分类器的识别的类别标签属性结果;步骤3.2.3,结合步骤3.2.1和步骤3.2.2得到的正负类别标签属性结果,进行融合判决,融合判决策略为:当GMM模型和SVM分类器识别的类别标签属性结果一致,则以此类别标签作为识别结果输出;当GMM模型和SVM分类器识别的类别标签属性结果不一致,则输出负类别;步骤3.3,在步骤3.2.3得到的融合后的识别结果的基础上,对音频事件类别结果序列进行平滑,去除识别结果序列当中的毛刺判决,得到最终识别结果并输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210226349.8/,转载请声明来源钻瓜专利网。
- 上一篇:线型加热器中的线型加热管、线型加热器和摊铺机
- 下一篇:用于车辆的控制装置