[发明专利]声学事件检测方法、装置、电子设备和存储介质在审

申请号：	202210200026.5	申请日：	2022-03-01
公开（公告）号：	CN114627861A	公开（公告）日：	2022-06-14
发明（设计）人：	黄盼;梁芸浩;龙艳花	申请（专利权）人：	云知声（上海）智能科技有限公司;上海师范大学
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	200233 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声学事件检测方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了声学事件检测方法、装置、电子设备和存储介质。该方法的一具体实施方式包括：获取目标音频；对目标音频进行预处理；将预处理后的目标音频输入经原始训练样本训练的第一声学事件检测模型与经高质量训练样本调整训练得到的第二声学事件检测模型；根据第一声学事件检测模型与第二声学事件检测模型的输出确定目标音频中各个声音片段的声学事件类别。该实施方式提供了一种基于多模型的声学事件检测机制，提高了声学事件检测的检测效果。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及声学事件检测方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术与深度神经网络的快速发展以及结合人工智能应用的兴起，智能语音技术已逐渐在人们的生产生活方面有了广泛的应用，包括声音场景分类，声音事件分类，异常声学事件检测等方面。其中，声学事件检测技术是模仿人类辨识声学事件的能力，利用音频信号处理和深度学习技术完成对声学事件的识别与分类，如说话声、闹铃声、汽车发动机声、鸟叫声等等。声学事件检测(AED)是指预测发生在音频片段中的声学事件的类别以及识别这些事件的开始和偏移时间戳。声学事件检测可应用于许多领域，如智能家居、健康监测系统、无人驾驶、多媒体检索以及复杂场景下的语音识别等。

但是，在声学事件检测任务中，由于从真实环境中采集的数据非常复杂，多数情况下存在域不平衡问题以及多类事件重叠问题，导致对声学事件检测系统的建模带来难度，难以达到实际应用所需要的精准度，且单模型的检测性能存在偏执性，对不同类别的检测能力存在明显差异，导致不均衡的检测结果，对系统的普适性以及泛化性有严重的影响。

发明内容

本申请实施例提出了声学事件检测方法、装置、电子设备和存储介质。

第一方面，本申请的一些实施例提供了一种声学事件检测方法，该方法包括：获取目标音频；对目标音频进行预处理；将预处理后的目标音频输入经原始训练样本训练的第一声学事件检测模型与经高质量训练样本调整训练得到的第二声学事件检测模型；根据第一声学事件检测模型与第二声学事件检测模型的输出确定目标音频中各个声音片段的声学事件类别。

在一些实施例中，高质量训练样本包括经由以下步骤筛选得到的训练样本：通过预先训练的语音分离模型获得原始音频数据中包括的分离音频片段及与各个分离音频片段的对应的第一类型信息；通过预先训练的声学事件检测模型对分离音频片段进行标签标注得到与各个分离音频片段的对应的第二类型信息；筛选出对应的第一类型信息与第二类型信息相同的分离音频片段；将筛选出的分离音频片段确定为高质量训练样本，将与筛选出的分离音频片段对应的第一类型信息或第二类型信息确定为高质量训练样本的标签。

在一些实施例中，筛选出对应的第一类型信息与第二类型信息相同的分离音频片段，包括：筛选出对应的第一类型信息与第二类型信息相同，且第一类型信息或第二类型信息为目标事件类型的分离音频片段。

在一些实施例中，方法还包括调整训练第二声学事件检测模型的步骤，调整训练第二声学事件检测模型的步骤包括：叠加高质量训练样本中的分离音频片段，形成混合音频；将混合音频输入第三声学事件检测模型中，得到第一预测结果；将高质量训练样本中的分离音频片段依次输入第四声学事件检测模型中，并依次生成相应的第二预测结果；根据第一预测结果与第二预测结果以及高质量训练样本的标签，调整第一预测结果与第二预测结果加权的权重参数以及第四声学事件检测模型的参数。

在一些实施例中，第二声学事件检测模型包括调整参数后的第四声学事件检测模型，和/或根据调整后的权重参数加权第三声学事件检测模型与参数调整后的第四声学事件检测模型得到的第五声学事件检测模型。

在一些实施例中，根据第一声学事件检测模型与第二声学事件检测模型的输出确定目标音频中各个声音片段的声学事件类别，包括：基于第一声学事件检测模型与第二声学事件检测模型的类区分度，自适应加权融合第一声学事件检测模型与第二声学事件检测模型的输出结果；根据加权融合后的输出结果确定目标音频中各个声音片段的声学事件类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云知声（上海）智能科技有限公司;上海师范大学，未经云知声（上海）智能科技有限公司;上海师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210200026.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种平面无曲线的建筑屋面结构及使用方法
下一篇：作品评论方法、系统、电子设备和存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声学事件检测方法、装置、电子设备和存储介质在审

专利文献下载