[发明专利]基于直方图统计和池化算法的音频场景识别方法及装置有效
申请号: | 201710438695.5 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107204193B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 冷严;齐广慧;徐新艳;周耐;李登旺 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L25/48 | 分类号: | G10L25/48;G10L25/27;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 直方图 统计 算法 音频 场景 识别 方法 装置 | ||
1.基于直方图统计和池化算法的音频场景识别方法,其特征是,包括:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别;
所述步骤(5)的步骤为:
步骤(5.1):对测试音频文档,采用KL散度算法,求出测试音频文档和训练集中每个音频文档的差异程度;
步骤(5.2):将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别;
所述步骤(3)的步骤为:
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图;对训练集中的每一类音频场景,通过以下具体步骤增加多样性:
步骤(3.1):采用最小池化算法得到音频文档minx:
minx=min[x1,x2,…,xM] (1)
其中,min[﹒]表示对集合中的音频文档的每一维求最小值;
步骤(3.2):采用最大池化算法得到音频文档maxx:
maxx=max[x1,x2,…,xM] (2)
其中,max[﹒]表示对集合中的音频文档的每一维求最大值;
步骤(3.3):采用平均池化算法得到音频文档avex:
avex=ave[x1,x2,…,xM] (3)
其中,ave[﹒]表示对集合中的音频文档的每一维求平均值;
步骤(3.4):将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。
2.如权利要求1所述的方法,其特征是,所述步骤(1)创建音频字典的具体过程包括:
步骤(1.1):对训练音频文档进行分帧处理;
步骤(1.2):对训练音频文档的每个帧提取39维MFCC特征,用MFCC特征表征音频帧;
步骤(1.3):对训练集中的所有用MFCC特征表征的帧进行k均值聚类,聚类后取簇质心组成音频字典,所述簇质心称为音频字典的音频字。
3.如权利要求1所述的方法,其特征是,所述步骤(2)的步骤为:
步骤(2.1):根据音频字典将训练集中所有帧映射成音频字,映射的方法是:对每个帧,基于欧氏距离从音频字典中找出与其最近邻的音频字,用最近邻的音频字来表示该帧;
步骤(2.2):统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;
步骤(2.3):对统计直方图进行归一化,用归一化直方图来表征每个音频文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710438695.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:闹钟
- 下一篇:LED灯泡(B15)