[发明专利]基于直方图统计和池化算法的音频场景识别方法及装置有效

申请号：	201710438695.5	申请日：	2017-06-12
公开（公告）号：	CN107204193B	公开（公告）日：	2020-05-29
发明（设计）人：	冷严;齐广慧;徐新艳;周耐;李登旺	申请（专利权）人：	山东师范大学
主分类号：	G10L25/48	分类号：	G10L25/48;G10L25/27;G06K9/62
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于直方图统计算法音频场景识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于直方图统计和池化算法的音频场景识别方法及装置，该方法包括通过训练音频文档创建音频字典；通过直方图统计表征训练集和测试集中的音频文档；通过池化算法增加训练集中各个音频场景的多样性，以及最后通过匹配识别判定测试音频文档的音频场景类别。本发明创新性地提出通过池化算法增加训练集中各个音频场景的多样性；音频场景多样性的增加可以使其涵盖面更广，进而减少训练集和测试集中同一音频场景的差异，提高识别准确率。

技术领域

本发明属于音频场景识别领域，尤其涉及基于直方图统计和池化算法的音频场景识别方法及装置。

背景技术

音频场景识别技术因其能通过音频信号感知周围环境而广受关注。与视频信号相比，音频信号可以不受光照和遮挡的影响，且能很好地保护个人隐私，因此其具有非常广泛的应用价值。音频场景识别技术可以用于智能机器人，以帮助机器人更好地感知周围环境，进而做出正确的决策；音频场景识别技术还可以用于老年人家居监护和安全监控等诸多领域。

音频场景识别过程中面临的一个技术难题是同一音频场景下的音频文档之间可能存在较大差异，进而增加了识别难度。比如，在办公室场景下，在某些时刻可能有较多的说话声；而在其他时刻可能没有说话声，主要是由静音组成。因此，在同一音频场景下，在不同时刻采集的音频文档可能会有较大差异，这为音频场景的识别增加了难度。假设某一音频场景的训练音频文档和测试音频文档之间存在较大差异，则音频场景的识别准确率必然会较低。

发明内容

本发明的目的就是为了解决上述问题，提供基于直方图统计和池化算法的音频场景识别方法及装置，通过直方图统计来表征音频场景，同时通过池化算法来增加训练集中各个音频场景的多样性。

为了实现上述目的，本发明采用如下技术方案：

基于直方图统计和池化算法的音频场景识别方法，包括：

步骤(1)：创建音频字典；

步骤(2)：根据音频字典将训练集中所有帧映射成音频字，统计训练集里每个音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；对统计直方图进行归一化，用归一化直方图表征训练集中各个音频文档；

步骤(3)：通过池化算法增加训练集中各个音频场景的多样性；

步骤(4)：根据音频字典将测试音频文档的帧映射成音频字，统计测试音频文档中各个音频字的出现次数，得到音频文档和音频字之间的统计直方图；对统计直方图进行归一化，用归一化直方图表征测试集中各个音频文档；

步骤(5)：基于训练集中各个音频文档，对测试集中各个音频文档进行匹配识别。

所述步骤(1)创建音频字典的具体过程包括：

步骤(1.1)：对训练音频文档进行分帧处理。根据经验法则，将帧长设定为30毫秒，将音频文档分割成30毫秒长的互不重叠的帧；

步骤(1.2)：对训练音频文档的每个帧提取39维MFCC特征，用MFCC特征表征音频帧；