[发明专利]基于直方图统计和池化算法的音频场景识别方法及装置有效
申请号: | 201710438695.5 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107204193B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 冷严;齐广慧;徐新艳;周耐;李登旺 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L25/48 | 分类号: | G10L25/48;G10L25/27;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 直方图 统计 算法 音频 场景 识别 方法 装置 | ||
本发明公开了一种基于直方图统计和池化算法的音频场景识别方法及装置,该方法包括通过训练音频文档创建音频字典;通过直方图统计表征训练集和测试集中的音频文档;通过池化算法增加训练集中各个音频场景的多样性,以及最后通过匹配识别判定测试音频文档的音频场景类别。本发明创新性地提出通过池化算法增加训练集中各个音频场景的多样性;音频场景多样性的增加可以使其涵盖面更广,进而减少训练集和测试集中同一音频场景的差异,提高识别准确率。
技术领域
本发明属于音频场景识别领域,尤其涉及基于直方图统计和池化算法的音频场景识别方法及装置。
背景技术
音频场景识别技术因其能通过音频信号感知周围环境而广受关注。与视频信号相比,音频信号可以不受光照和遮挡的影响,且能很好地保护个人隐私,因此其具有非常广泛的应用价值。音频场景识别技术可以用于智能机器人,以帮助机器人更好地感知周围环境,进而做出正确的决策;音频场景识别技术还可以用于老年人家居监护和安全监控等诸多领域。
音频场景识别过程中面临的一个技术难题是同一音频场景下的音频文档之间可能存在较大差异,进而增加了识别难度。比如,在办公室场景下,在某些时刻可能有较多的说话声;而在其他时刻可能没有说话声,主要是由静音组成。因此,在同一音频场景下,在不同时刻采集的音频文档可能会有较大差异,这为音频场景的识别增加了难度。假设某一音频场景的训练音频文档和测试音频文档之间存在较大差异,则音频场景的识别准确率必然会较低。
发明内容
本发明的目的就是为了解决上述问题,提供基于直方图统计和池化算法的音频场景识别方法及装置,通过直方图统计来表征音频场景,同时通过池化算法来增加训练集中各个音频场景的多样性。
为了实现上述目的,本发明采用如下技术方案:
基于直方图统计和池化算法的音频场景识别方法,包括:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
所述步骤(1)创建音频字典的具体过程包括:
步骤(1.1):对训练音频文档进行分帧处理。根据经验法则,将帧长设定为30毫秒,将音频文档分割成30毫秒长的互不重叠的帧;
步骤(1.2):对训练音频文档的每个帧提取39维MFCC特征,用MFCC特征表征音频帧;
步骤(1.3):对训练集中的所有用MFCC特征表征的帧进行k均值聚类,聚类后取簇质心组成音频字典,所述簇质心称为音频字典的音频字。
所述步骤(2)的步骤为:
步骤(2.1):根据音频字典将训练集中所有帧映射成音频字,映射的方法是:对每个帧,基于欧氏距离从音频字典中找出与其最近邻的音频字,用最近邻的音频字来表示该帧;
步骤(2.2):统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;
步骤(2.3):对统计直方图进行归一化,用归一化直方图来表征每个音频文档。
所述步骤(3)的步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710438695.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:闹钟
- 下一篇:LED灯泡(B15)