[发明专利]声音事件识别方法、装置、设备和存储介质在审

申请号：	201910733513.6	申请日：	2019-08-09
公开（公告）号：	CN112349298A	公开（公告）日：	2021-02-09
发明（设计）人：	黄智颖;雷鸣	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/51
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	彭琼
地址：	开曼群岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音事件识别方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种声音事件识别方法、装置、设备和存储介质；其中，该声音事件识别方法，包括：提取音频序列的多帧音频的声学特征；对于每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到与帧音频对应的融合声音事件特征；分别确定每一帧音频的融合声音事件特征的概率；将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。本发明实施例能够提高识别性能。

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种声音事件识别方法、装置、设备和存储介质。

背景技术

近年来，声音事件检测(识别)引起广泛关注。声音事件检测对于音频取证、环境声音识别、生物声音监控、声场景分析、环境安全监控，实时军事关注点的检测、定位跟踪和声源分类，病人监护、非正常事件监测及故障诊断、递交早期维护的关键信息等都具有重要意义。声场景中检测(识别)声音事件，试图在音频数据中识别出隐藏在它们中的真实事件。

目前，相关技术中使用的模型一般结构复杂，识别性能需要提高。

发明内容

本发明实施例提供了一种声音事件识别方法、装置、设备和存储介质，用以提高识别性能。

根据本发明实施例的第一方面，提供一种声音事件识别方法，该方法可以包括：

提取音频序列的多帧音频的声学特征；

对于每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到与帧音频对应的融合声音事件特征；

分别确定每一帧音频的融合声音事件特征的概率；

将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；

根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

根据本发明实施例的第二方面，提供一种声音事件识别装置，该装置可以包括：

提取模块，用于提取音频序列的多帧音频的声学特征；

第一神经网络模块，用于针对每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到与帧音频对应的融合声音事件特征；