[发明专利]基于可变时长的音频特征分类方法有效
申请号: | 201110033410.2 | 申请日: | 2011-01-30 |
公开(公告)号: | CN102623007A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 卢敏;窦维蓓 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 童晓琳 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了多媒体信号处理和模式识别技术领域中的一种基于可变时长的音频特征分类方法。包括将确定类型并经过标注的音频序列作为训练序列;提取训练序列中的音频信号的短时特征构成短时特征向量;计算各个短时特征在设定时长内的统计参量,进而得到短时特征向量对应的统计特征向量;计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;利用训练序列的长时特征向量训练分类器;提取测试序列中第i帧的音频信号的短时特征并计算测试序列的第i帧的输入长时特征向量;将第i帧的输入长时特征向量送入训练后的分类器中,得到分类类型。本发明避免提取长时特征导致的延时问题,实现了音频特征的实时分类。 | ||
搜索关键词: | 基于 可变 音频 特征 分类 方法 | ||
【主权项】:
1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:步骤1:将确定类型并经过标注的音频序列作为训练序列;步骤2:提取训练序列中的音频信号的短时特征F1,F2,...,FK,构成短时特征向量,K是短时特征向量的分量个数;步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量,进而短时特征向量对应一个统计特征向量,其中;1≤k≤K;步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...<NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;步骤5:利用训练序列的长时特征向量训练分类器;步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量以及测试序列的步骤7:根据测试序列的第i帧的统计特征向量以及测试序列的,计算测试序列的第i帧的输入长时特征向量;步骤8:将第i帧的输入长时特征向量送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110033410.2/,转载请声明来源钻瓜专利网。