[发明专利]一种混叠音频事件分类方法有效
申请号: | 201410459191.8 | 申请日: | 2014-09-09 |
公开(公告)号: | CN104269169B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 冷严;程传福;齐广慧;徐新艳;万洪林 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/51;G10L15/06 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种混叠音频事件分类方法,该方法在训练阶段通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ。在测试阶段,根据训练阶段得到的“作者—主题”模型θ和“主题—字”模型Φ,通过求解音频文档相对于各个混叠音频类的不确定值来进行分类。本发明提出的混叠音频事件分类方法能分类识别出音频样本中的多个音频事件,而不仅仅是其中的某个音频事件,因而有助于更好地分析音频文档的内容。目前对混叠音频事件的分类研究还很少,本发明提出的方法是对这方面研究的一个很好补充。 | ||
搜索关键词: | 一种 音频 事件 分类 方法 | ||
【主权项】:
一种混叠音频事件分类方法,其特征是,包括如下步骤:步骤(1):输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档;步骤(2):对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧,并对每帧进行特征提取,特征提取得到音频特征,得到的所有帧的音频特征即为所有音频事件的训练样本;步骤(3):利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类,聚类得到训练样本聚类的各个簇和各个簇的中心,进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达;步骤(4):根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数,通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ;步骤(5):输入待测试音频文档;步骤(6):对步骤(5)的测试音频文档进行分帧,并对每帧进行特征提取,提取与步骤(2)相同类型的音频特征;步骤(7):计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离,取距离最小的簇中心对应的字为测试音频样本的字表达;步骤(8):根据步骤(7)的测试音频样本的字表达,利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ,求得测试音频文档相对于各个混叠音频类的不确定值;步骤(9):求测试音频文档相对于各个混叠音频类的最小不确定值,将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410459191.8/,转载请声明来源钻瓜专利网。