[发明专利]用于音频内容识别的分类系统有效

申请号：	200810035351.0	申请日：	2008-03-28
公开（公告）号：	CN101546556A	公开（公告）日：	2009-09-30
发明（设计）人：	黄鹤云;林福辉	申请（专利权）人：	展讯通信(上海)有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/02;G10L15/06;G10L15/16
代理公司：	上海和跃知识产权代理事务所	代理人：	董烨飞
地址：	201203上海市浦东***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于音频内容识别分类系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种模式识别及信号处理技术，尤其涉及一种用于音频内容识别的分类系统。

背景技术

音频是多媒体中的一种重要媒体，音频信息检索技术是多媒体信息检索技术中的一个重要部分，相应的现有技术可参考中国专利1391211、1223739及1270361号及美国专利5,613,037、6,292,776及5,440,662号等。在音频检索应用中，需要对音频数据进行分类，它的目的是区分输入的音频信号属于那一类，常见的音频类别有人声、背景噪声、流行音乐、古典音乐等，并且音频内容分类的应用也非常广泛，特别是在音频检索领域，音频内容分类起着决定性的作用，而在一些多媒体摘要的抽取过程中，音频内容分类作为视频内容检索的一种辅助手段也起到了重要作用。广义上来说，在很多语音和音频标准，例如3GPP的AMR-WB和AMR-WB+里，它们都用到了语音/噪声分类器和语音/音乐分类器，提供给编码器输入信号是哪一种音频信号，从而对每一种信号采取不同的编码器，因此设计一种良好的音频内容分类方法是相当关键和重要的。在通常的分类方法中，通常用到两个必不可少的模块，即音频特征提取模块，其功能是从输入的音频采样点中提取反映音频内容种类的信息，而另一个则是分类器，其利用这些信息完成对种类判断的过程。其中音频内容的很多特征，例如时域特征(过零率、曲率、线性预测系数等等)、频域特征(梅尔倒谱系数、傅立叶变换系数，小波变换系数等等)以及一些其他非线性特征(分形、混沌参数等等)被证明是非常有效的分类方法，而在音频内容分类技术领域内，已有很多种分类器被广泛应用了，其中决策树(Decision Tree)和k-最近邻方法(K Nearest Neighbor)为两种相对较易于实现和理解的分类器，它们并对语音、环境噪声、音乐三类音频内容分类取得了良好的效果。此外，在AMR-WB+标准里，语音和音乐的分类器也是采用的决策树的方法。而支持向量机分类器(Support Vector MachineClassifier)作为一种近几年来被很多机器学习和模式识别领域里采用的分类器，也被证明是一种非常行之有效的方法。其他几种经典分类器，例如反向神经网络(Back-Propagation Neural Network)，人工神经网络(ArtificialNeural Network)，聚类(Clustering)方法，也被证明对音频内容分类是有效的。

而在现有的分类系统中，由于其分类器的参数均为固定，无法进行及时更新，并且对突发事件的音频特性无法进行有效处理，因此不能满足特定环境(如安防监控)的使用要求。

发明内容

本发明要解决的技术问题在于提出一种音频内容分类系统，用以解决现有的分类器的参数无法更新及对突发事件的音频特性无法进行有效处理的缺陷。

为解决上述问题，根据本发明的一种音频内容分类系统，包括训练端与测试端，其中训练端包括音频特征提取模块与分类器训练模块，其中音频特征提取模块用以提取音频信号的特征，而分类器训练模块根据音频特征提取模块采集的音频特征以及该音频信号的类别信息，训练出分类器的参数；而测试端包括和训练端共用的音频特征提取模块、分类器决策模块、瞬态特征提取模块、瞬态特征平滑模块及增量学习模块，其中音频特征提取模块用以提取输入信号的音频特征，分类器决策模块是根据音频特征提取模块的输出音频特征为输入，对第一帧运用训练部分训练得到的分类器参数进行分类，同时瞬态特征提取模块对输入信号的瞬态特征进行提取并输出至瞬态特征平滑模块，该瞬态特征平滑模块来对分类器决策模块的输出结果进行修正并输出，同时增量学习模块利用瞬态特征平滑模块修正并输出的已分类的音频帧的类别信息和特征信息来当作一组增量学习样本更新分类器的参数。

依据上述主要特征，瞬态特征提取模块提取出当前帧的瞬态特征并进行判断，瞬态特征平滑模块根据瞬态特征的不同而采取不同的平滑处理方法，其中当前帧被判断为瞬态帧的时候，采用第二平滑方法，反之采用第一平滑方法，其中第一平滑方法是指和瞬态特征无关的平滑方法，其先分析前三帧，如果出现了“非突发事件帧、突发事件帧、非突发事件帧”这种分类结果，则将三帧都平滑为非突发事件帧，第二平滑方法则是与瞬态特征相关的平滑方法，是当瞬态特征大于一门限值时，则令此帧开始前三帧和后三帧都为突发事件。

依据上述主要特征，更新分类器参数是通过将预先保存的训练数据和增量学习的样本组成一个更大的训练样本，重新训练分类器，更新分类器参数。

依据上述主要特征，上述的分类器里还包括特征融合模块或者特征降维模块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司，未经展讯通信(上海)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810035351.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于音频内容识别的分类系统有效

专利文献下载