[发明专利]一种结合PLSA和AT的音频事件分类方法有效
申请号: | 201510114394.8 | 申请日: | 2015-03-16 |
公开(公告)号: | CN104731890B | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 冷严;李登旺;程传福;万洪林;王晶晶;方敬;徐新艳 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种结合PLSA和AT的音频事件分类方法,该方法在训练阶段用训练样本训练PLSA模型和AT模型;在分类阶段,对于待分类的音频文档,首先用PLSA模型求得文档中潜在的音频事件,然后用AT模型从潜在音频事件中找出若干音频事件作为分类结果。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事件。 | ||
搜索关键词: | 一种 结合 plsa at 音频 事件 分类 方法 | ||
【主权项】:
一种结合PLSA和AT的音频事件分类方法,其特征是,包括如下步骤:步骤(1):通过训练音频文档训练得到AT模型;所述步骤(1)的具体步骤为:步骤(1‑1):输入训练音频文档:训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文档;步骤(1‑2):分帧及特征提取:对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频特征;所述步骤(1‑2)的分帧处理是指:帧长取32毫秒,帧移取16毫秒,每一帧作为一个样本;所述步骤(1‑2)的音频特征包括MFCC、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量;步骤(1‑3):通过聚类得到各个音频样本的字表达;所述步骤(1‑3)的步骤为:采用Kmeans聚类算法对步骤(1‑2)中分帧得到的样本进行聚类;假设训练集中共有L个样本,记为{f1,f2,…,fL};聚类共得到W个簇,W个簇的簇中心样本记为{C1,C2,…,Cj,…,CW},将{C1,C2,…,Cj,…,CW}作为音频字典,则音频字典中的每个样本Cj j∈{1,2,…,W}表示音频字典中的一个音频字;根据音频字典,每个样本都能够得到如下的音频字表达:IDX(fi)=argminj,j∈{1,2,...,W}Dis(fi,Cj)---(1)]]>其中,fi表示训练集中的第i个样本,下标i表示第i个;Cj表示聚类得到的第j个簇的簇中心样本,下标j表示第j个;W表示聚类得到的簇的个数,或者称为音频字典中字的个数;IDX(fi)表示样本fi在音频字典中的索引,或者称为样本fi的字表达;Dis(fi,Cj)表示样本fi和簇中心样本Cj之间的距离;步骤(1‑4):通过吉布斯采样训练得到AT模型的“作者—主题”分布Θ和“主题—字”分布Φ;所述步骤(1‑4)的步骤为:将训练样本中包含的音频事件作为样本的作者;假设“作者—主题”分布Θ和“主题—字”分布Φ的先验分布分别是服从参数为α和β的Dirichlet分布,α和β是已知的参数值;将每个音频文档中的所有字连接成一个向量,将整个训练集中所有音频文档连接起来组成一个新的向量,用w表示此新的向量;每个字对应一个作者和一个主题,因此w中每个字的作者组成一个向量,用x表示;w中每个字的主题组成一个向量,用z表示;假设训练集中共有A个作者、T个主题,则向量x中的每个元素在A个作者中取值,向量z中的每个元素在T个主题中取值;训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的;此训练过程具体分两步执行:第一步,吉布斯采样;所述吉布斯采样的步骤为:首先,对向量x和z进行随机初始化,然后,在吉布斯采样的每轮迭代过程中,根据公式(2)对w中每个字的作者和主题进行顺序采样:P(xdi=a,zdi=t|wdi=w,z-di,x-di,w-di,α,β)∝Cwt,-diWT+βΣw*Cw*t,-diWT+WβCta,-diTA+αΣt*Ct*a,-diTA+Tα---(2)]]>其中,a、t、w分别表示某一具体的作者、主题、字,其取值为a∈{1,…,A},t∈{1,…,T},w∈{1,…,W};W表示音频字典中的字的数量,T表示训练集中主题的数量,A表示训练集中作者的数量;wdi表示训练集中第d个文档中的第i个字;xdi、zdi分别表示训练集中第d个文档中的第i个字所对应的作者、主题;z‑di表示向量z中除去第d个文档中的第i个字所对应的主题以外,由其它元素所组成的向量;x‑di表示向量x中除去第d个文档中的第i个字所对应的作者以外,由其它元素所组成的向量;w‑di表示向量w中除去第d个文档中的第i个字所对应的字以外,由其它元素所组成的向量;CTA表示统计得到的“作者—主题”矩阵;表示矩阵CTA中第t行第a列的矩阵元素,即训练集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目;CWT表示“主题—字”矩阵,表示矩阵CWT中第w行第t列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为t的字的总数目;表示矩阵CTA中第t*行第a列的矩阵元素,用t*以和中的t进行区分;表示矩阵CWT中第w*行第t列的矩阵元素,用w*以和中的w进行区分;吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样;如此迭代若干轮后,则认为z和x的联合概率分布已经收敛;在z和x的联合概率分布收敛之后继续迭代;第二步:假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮,每轮迭代后的z和x的采样值记为(zs,xs),s=1,2,…,S;s表示z和x的联合概率分布收敛之后继续迭代的第s轮,由(zs,xs)统计得到相应的(CTA)s矩阵和(CWT)s矩阵,(CTA)s和(CWT)s分别表示由第s轮采样值(zs,xs)统计得到的CTA矩阵和CWT矩阵;对S个矩阵(CTA)s,s=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ;对S个矩阵(CWT)ss=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ;步骤(2):通过训练音频文档训练得到PLSA模型;所述步骤(2)的具体步骤为:步骤(2‑1):将音频事件作为PLSA模型中的主题;步骤(2‑2):PLSA模型中的音频字典直接采用AT模型中创建的音频字典;步骤(2‑3):通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(wa)w∈{1,…,W};a表示某一具体音频事件,假设训练集中共有A个音频事件,则a的取值为a∈{1,…,A};w表示音频字典中的某一具体的字;W表示音频字典中的字的数量;对于某一音频事件a,首先找出训练集中所有包含音频事件a的音频文档;步骤(2‑4):由于步骤(1‑3)已经得到音频文档中各个音频样本的字表达,所以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目,将统计结果记为向量(h1,…,hW);h1表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的数量;hW表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量;步骤(2‑5):将向量(h1,…,hW)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1,…,W};步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个音频事件;所述步骤(3)的具体步骤为:步骤(3‑1):用dtest表示待分类的音频文档,对待分类音频文档采用步骤(1‑2)所述的方法进行分帧、特征提取,并根据训练阶段的步骤(1‑3)得到的音频字典求得各帧的字表达,最后统计待分类音频文档关于音频字的直方图,并用直方图来表达待分类音频文档dtest;步骤(3‑2):分类采用EM迭代方法,在EM迭代的最大化步骤中,保持p(w|a)w∈{1,…,W}的值为训练阶段的值不变;EM迭代收敛后得到p(dtest|a)和p(a),p(dtest|a)表示待分类音频文档dtest关于音频事件a的条件概率,p(a)表示音频事件a的概率;步骤(3‑3):通过公式(3)求得待分类音频文档dtest关于各个音频事件的概率分布p(a|dtest):p(a|dtest)=p(dtest|a)p(a)Σa*p(dtest|a*)p(a*)---(3)]]>其中,p(a*)表示音频事件a*的概率,p(dtest|a*)表示待分类音频文档dtest关于音频事件a*的条件概率;步骤(3‑4):将概率最大的前M个音频事件作为待分类音频文档dtest的潜在音频事件,即:PAE(dtest)=argFMmaxa{p(a|dtest),a=1,...,A}---(4)]]>其中,PAE(dtest)表示待分类音频文档dtest的潜在音频事件;FMmax{·}表示数值集合{·}中的前M个最大的数值;步骤(4):通过步骤(1)得到的AT模型,从步骤(3)潜在的M个音频事件中选择N个音频事件作为分类结果,其中,1≤N<M;所述步骤(4)的具体步骤为:步骤(4‑1):假设步骤(3‑4)中得到的M个潜在音频事件为ai i=1,…,M,通过公式(5)求得在已知潜在音频事件ai的条件下,其中,i=1,…,M,待分类音频文档dtest的perplexity值;perplexity(dtest|ai,Θ,Φ)=exp(-logp(dtest|ai,Θ,Φ)Ntest)---(5)]]>其中,Ntest表示待分类音频文档dtest中字的数目,p(dtest|ai,Θ,Φ)表示在已知潜在音频事件ai、“作者—主题”分布Θ和“主题—字”分布Φ的条件下,待分类音频文档dtest的后验概率,通过公式(6)求算:p(dtest|ai,Θ,Φ)=Πi=1Ntestp(wtesti|ai,Θ,Φ)=Πi=1NtestΣt=1Tp(wtesti,ztesti=t|xtesti=ai,Θ,Φ)=Πi=1NtestΣt=1Tp(wtesti|ztesti=t,Φ)p(ztesti=t|xtesti=ai,Θ)=Πi=1NtestΣt=1TΦwtestitΘtai---(6)]]>其中,表示待分类音频文档dtest中的第i个字;表示待分类音频文档dtest中第i个字的潜在主题;t表示某一具体主题;表示待分类音频文档dtest中第i个字的作者;表示“作者—主题”分布Θ中的第t行第ai列的元素;表示“主题—字”分布Φ中的第行第t列元素;步骤(4‑2):通过公式(7)从潜在的M个音频事件中选择N个音频事件作为分类结果,1≤N<M:AE(dtest)=argFNminai{perplexity(dtest|ai,Θ,Φ),i=1,...,M}---(7)]]>AE(dtest)表示待分类音频文档dtest的分类结果;FNmin{·}表示数值集合{·}中的前N个最小的数值;对于包含纯净音频事件的音频文档,N取1;对于包含两个音频事件的混叠音频文档,N取2,以此类推。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510114394.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种集中式文件服务系统的拟态防篡改方法
- 下一篇:图片排序方法和装置