[发明专利]基于直方图统计和池化算法的音频场景识别方法及装置有效
申请号: | 201710438695.5 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107204193B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 冷严;齐广慧;徐新艳;周耐;李登旺 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L25/48 | 分类号: | G10L25/48;G10L25/27;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于直方图统计和池化算法的音频场景识别方法及装置,该方法包括通过训练音频文档创建音频字典;通过直方图统计表征训练集和测试集中的音频文档;通过池化算法增加训练集中各个音频场景的多样性,以及最后通过匹配识别判定测试音频文档的音频场景类别。本发明创新性地提出通过池化算法增加训练集中各个音频场景的多样性;音频场景多样性的增加可以使其涵盖面更广,进而减少训练集和测试集中同一音频场景的差异,提高识别准确率。 | ||
搜索关键词: | 基于 直方图 统计 算法 音频 场景 识别 方法 装置 | ||
【主权项】:
基于直方图统计和池化算法的音频场景识别方法,其特征是,包括:步骤(1):创建音频字典;步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;步骤(3):通过池化算法增加训练集中各个音频场景的多样性;步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710438695.5/,转载请声明来源钻瓜专利网。
- 上一篇:闹钟
- 下一篇:LED灯泡(B15)