[发明专利]一种混叠音频事件分类方法有效

申请号：	201410459191.8	申请日：	2014-09-09
公开（公告）号：	CN104269169B	公开（公告）日：	2017-04-12
发明（设计）人：	冷严;程传福;齐广慧;徐新艳;万洪林	申请（专利权）人：	山东师范大学
主分类号：	G10L15/08	分类号：	G10L15/08;G10L25/51;G10L15/06
代理公司：	济南圣达知识产权代理有限公司37221	代理人：	张勇
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频事件分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种音频事件分类方法，尤其涉及一种混叠音频事件分类方法。

背景技术

音频事件分类是计算听觉场景分析的重要研究内容。音频事件能为我们提供丰富的信息，比如，说话声能使人们了解当前的谈话内容，音乐声能帮助人们分析当前所处的环境，会议室内的鼓掌声能使人们了解当前会议的进展状态等等。

音频文档中所包含的音频事件一般可分为两种，一种是纯净的音频事件，即同一时间只有一个音频事件发生；另一种是混叠音频事件，即同一时间有多个音频事件同时发生。

目前的分类技术已经能很好地分类纯净的音频事件，但是对混叠音频事件的分类性能还较差。此外，目前针对混叠音频事件的分类研究还很少，在目前能查到的关于混叠音频事件分类的研究中，对混叠音频事件进行分类时采取的策略是将混叠音频事件分类为其所包含的某一音频事件，而没能识别出混叠音频事件中所包含的多个音频事件。

然而识别出混叠音频事件中所包含的多个音频事件对于音频场景识别以及对于音频文档内容的理解都是很有帮助的。比如，假设某一混叠音频事件中包含说话声和汽车行驶的声音，如果能同时分类识别出这两种音频事件，则有助于我们推断出当前的音频场景是发生在室外，而如果只识别出其中的说话声则难以推断出室外场景。

由此可见，对混叠音频事件的分类研究具有很重要的研究意义，2010年，IBM海法研究实验室的MICHAL ROSEN-ZVI等人提出了一种文本集的“作者—主题”模型，将其用于文本分析。而当前在音频领域对于混叠音频的研究主要集中在语音识别领域，对于不同类型的音频事件的混叠研究还很少，而且现有的研究未能识别出混叠音频中的多个音频事件。这主要是因为混叠音频事件的混叠类型多种多样，这给混叠音频事件的分类策略带来巨大挑战。

发明内容

本发明的目的就是为了解决上述问题，提供一种混叠音频事件分类方法，它拓展了该“作者—主题”模型的应用领域，将其用于解决上述混叠音频事件的分类问题。因此，本申请提出一种基于“作者—主题”模型和“主题—字”模型的混叠音频事件分类方法。和现有的混叠音频事件分类方法相比，它具备能识别出混叠音频事件中的多个音频事件的优点，而不是仅仅将混叠音频事件分类为其所包含的某一音频事件。

为了实现上述目的，本发明采用如下技术方案：

一种混叠音频事件分类方法，包括如下步骤：

步骤(1)：输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档；

步骤(2)：对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧，并对每帧进行特征提取，特征提取得到音频特征，得到的所有帧的音频特征即为所有音频事件的训练样本；

步骤(3)：利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类，聚类得到训练样本聚类的各个簇和各个簇的中心，进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达；

步骤(4)：根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数的条件下，通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ；

步骤(5)：输入待测试音频文档；

步骤(6)：对步骤(5)的测试音频文档进行分帧，并对每帧进行特征提取，提取与步骤(2)相同类型的音频特征；

步骤(7)：计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离，取距离最小的簇中心对应的字为测试音频样本的字表达；

步骤(8)：根据步骤(7)的测试音频样本的字表达，利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ，求得测试音频文档相对于各个混叠音频类的不确定值；

步骤(9)：求测试音频文档相对于各个混叠音频类的最小不确定值，将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。

所述步骤(2)的具体步骤为：