[发明专利]一种基于多实例学习的弱监督声音事件检测方法在审
申请号: | 202210789715.4 | 申请日: | 2022-07-05 |
公开(公告)号: | CN115312065A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 熊盛武;王旭 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/14;G10L19/022;G10L19/26;G10L25/12;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实例 学习 监督 声音 事件 检测 方法 | ||
本发明涉及一种基于多实例学习的弱监督声音事件检测方法。本发明充分利用了存在于音频帧中的确定性信息,在传统的多实例学习方法的基础上增加了两项对帧级预测的直接约束。首先定义了有效预测和无效预测,然后通过观测与推导,得出有效预测应该是局部平滑的,无效预测应该趋近于0的这两个推论,并根据这两个推论设计了两项帧级损失函数,使得帧级预测能够更好的逼近真实情况。本发明方法克服了传统的多实例学习方法仅在聚合后的包级预测上计算损失,导致帧级预测会产生很多不合理预测值的问题,提高了事件定位任务效果。
技术领域
本发明属于计算机声学领域,具体涉及一种基于多实例学习的弱监督声音事件检测方法。
背景技术
声音事件检测是指给出一段可能同时包含多个声音事件的音频段,需要检测出其中包含声音事件(音频标注),以及每个声音事件的开始和结束时间(事件定位)。值得注意的是,在同一时间点上可能同时存在多个声音事件。传统方法依赖强标注的训练集,也就是说在训练阶段会给出每个声音事件的开始和结束时间,但这种数据集的收集是非常耗时且昂贵的。因此,弱监督声音事件检测方法近年来得到了广泛的关注,弱监督声音事件检测指在训练阶段不提供声音事件的起止时间,只提供在训练音频上包含的声音事件,弱监督声音事件检测方法在学术界和工业界均有着重要的研究价值。
一种常用的弱监督声音事件检测框架是多实例学习方法。在多实例学习方法中,输入序列被视为由一组实例组成的包,将每个实例输入到一个实例分类器中可以得到一个实例预测,也就是实例在每个事件上的预测概率。然后,一个聚合函数将实例预测聚合为包级预测,可以通过最小化包级预测与弱包级标签构造的损失来优化实例分类器。在基于多实例学习的弱监督声音事件检测中,将一个训练音频段视为包,将其中的所有帧视为实例。其主要包含两个步骤:一是得到音频帧在多个声音事件上的帧级预测;二是聚合帧级预测得到包级预测。近年来提出的相关方法多是对聚合函数的改进以及提取更鲁棒的帧级特征。
虽然传统的多实例学习方法在音频标注任务上表现不俗,但在事件定位任务上的性能有待提高。通过观察分析传统的多实例学习方法的流程和实验结果,我们发现问题出在传统的多实例学习方法仅在聚合后的包级预测上计算损失,由于缺少对帧级预测的直接约束,导致帧级预测具有很大的随机性,这会带来很多不合理的预测值,这在很大程度上影响到了定位任务的准确性。
发明内容
本发明的目的是为了解决上述背景技术中存在的不足,即传统的多实例学习方法没有直接约束帧级预测。本发明通过观察分析已有的确定性的信息:声音事件的持续时长和弱标注信息,设计了两项帧级损失函数以抑制不合理帧级预测的产生。
为了实现上述目的,本发明所采用的技术方案为:一种基于多实例学习的弱监督声音事件检测方法,包括如下步骤:
步骤一,划分数据集,将数据集划分为训练集Dtrain,测试集Dtest,验证集Dverify,训练集只给出弱标注信息,测试集与验证集给出强标注信息;其中弱标注指对单个音频只给出其中包含的声音事件,强标注在弱标注的基础上还包括每个声音事件的开始和结束时间;
步骤二,从训练集Dtrain中取出一个训练批次Xi,先计算所述训练批次的声学特征,然后将声学特征按帧送入帧级分类器,并应用softmax得到帧级预测,其中Xi表示第i个音频段;
步骤三,通过一个聚合函数将得到的帧级预测聚合为包级预测,由包级预测与弱标注计算全局损失,并根据弱标注将帧级预测拆分为无效预测和有效预测,然后计算帧级损失,最终的优化目标为全局损失与帧级损失的加权和,通过反向传播更新网络参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210789715.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工艺检查方法、装置、设备和存储介质
- 下一篇:一种抗风结壳抑尘剂及其制备方法