[发明专利]一种混叠音频事件分类方法有效
申请号: | 201410459191.8 | 申请日: | 2014-09-09 |
公开(公告)号: | CN104269169B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 冷严;程传福;齐广慧;徐新艳;万洪林 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/51;G10L15/06 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 事件 分类 方法 | ||
1.一种混叠音频事件分类方法,其特征是,包括如下步骤:
步骤(1):输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档;
步骤(2):对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧,并对每帧进行特征提取,特征提取得到音频特征,得到的所有帧的音频特征即为所有音频事件的训练样本;
步骤(3):利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类,聚类得到训练样本聚类的各个簇和各个簇的中心,进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达;
步骤(4):根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数的条件下,通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ;
步骤(5):输入待测试音频文档;
步骤(6):对步骤(5)的测试音频文档进行分帧,并对每帧进行特征提取,提取与步骤(2)相同类型的音频特征;
步骤(7):计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离,取距离最小的簇中心对应的字为测试音频样本的字表达;
步骤(8):根据步骤(7)的测试音频样本的字表达,利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ,求得测试音频文档相对于各个混叠音频类的不确定值;
步骤(9):求测试音频文档相对于各个混叠音频类的最小不确定值,将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。
2.如权利要求1所述的一种混叠音频事件分类方法,其特征是,所述步骤(2)的具体步骤为:
步骤(2-1):在提取特征之前进行分帧处理,帧长取设定值,相继两帧之间有50%的重叠;
步骤(2-2):以帧为单位提取音频特征,用提取的特征来表征各个样本。
3.如权利要求1所述的一种混叠音频事件分类方法,其特征是,所述步骤(3)的具体步骤为:
步骤(3-1):用Kmeans聚类算法对训练样本聚类共得到C个簇,用这C个簇的中心作为字典中的字,进而构造字典,同时对字典中的各个字进行编号;
步骤(3-2):训练样本的编号用训练样本落到的相应簇的簇中心的编号来表达,进而得到各个音频事件训练样本的字表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410459191.8/1.html,转载请声明来源钻瓜专利网。