[发明专利]基于可变时长的音频特征分类方法有效
申请号: | 201110033410.2 | 申请日: | 2011-01-30 |
公开(公告)号: | CN102623007A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 卢敏;窦维蓓 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 童晓琳 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可变 音频 特征 分类 方法 | ||
1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列;
步骤2:提取训练序列中的音频信号的短时特征F1,F2,...,FK,构成短时特征向量,K是短时特征向量的分量个数;
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量,进而短时特征向量对应一个统计特征向量,其中;1≤k≤K;
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...<NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;
步骤5:利用训练序列的长时特征向量训练分类器;
步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量以及测试序列的
步骤7:根据测试序列的第i帧的统计特征向量以及测试序列的,计算测试序列的第i帧的输入长时特征向量;
步骤8:将第i帧的输入长时特征向量送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。
2.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述短时特征包括对数能量、过零率和均匀子带能量分布。
3.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。
4.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量训练分类器具体是利用训练序列的长时特征向量训练单个分类器。
5.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量训练分类器具体是使用前向特征选择法,在训练序列的长时特征向量中选择有效特征构成有效长时特征向量,并利用有效长时特征向量训练单个分类器。
6.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量训练分类器具体是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成的分类器组。
7.根据权利要求4-6中任意一项权利要求所述的一种基于可变时长的音频特征分类方法,其特征是所述单个分类器为基于正态分布的独立特征分类器。
8.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述计算测试序列的第i帧的输入长时特征向量具体利用公式
其中,q=1,2,L,P-1,中的共有q个,中的共有P-q个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110033410.2/1.html,转载请声明来源钻瓜专利网。