[发明专利]一种基于多实例学习的弱监督声音事件检测方法在审

申请号：	202210789715.4	申请日：	2022-07-05
公开（公告）号：	CN115312065A	公开（公告）日：	2022-11-08
发明（设计）人：	熊盛武;王旭	申请（专利权）人：	武汉理工大学
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/14;G10L19/022;G10L19/26;G10L25/12;G06K9/62;G06N3/04;G06N3/08
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于实例学习监督声音事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多实例学习的弱监督声音事件检测方法，其特征在于，包括如下步骤：

步骤一，划分数据集，将数据集划分为训练集D_train，测试集D_test，验证集D_verify，训练集只给出弱标注信息，测试集与验证集给出强标注信息；其中弱标注指对单个音频只给出其中包含的声音事件，强标注在弱标注的基础上还包括每个声音事件的开始和结束时间；

步骤二，从训练集D_train中取出一个训练批次X_i，先计算所述训练批次的声学特征，然后将声学特征按帧送入帧级分类器，并应用softmax得到帧级预测，其中X_i表示第i个音频段；

步骤三，通过一个聚合函数将得到的帧级预测聚合为包级预测，由包级预测与弱标注计算全局损失，并根据弱标注将帧级预测拆分为无效预测和有效预测，然后计算帧级损失，最终的优化目标为全局损失与帧级损失的加权和，通过反向传播更新网络参数；

步骤四，重复进行步骤二至三，训练整体的网络模型，得到训练好的帧级分类器，使用训练后的帧级分类器在测试集D_test和验证集D_verify上计算预测概率，然后在验证集D_verify上找到最佳的阈值，用来对测试集D_test样本进行分类。

2.如权利要求1所述的一种基于多实例学习的弱监督声音事件检测方法，其特征在于：步骤一的具体实现方式如下；

训练集由L个时长为10s的音频段组成，对每个音频段X_i都给出一个Multi-Hot标签Z_i∈{0，1}^N，Z_i即为音频弱标注，其中N表示事件的个数，Z_i[n]＝1，n∈{1，N}表示X_i上存在第n个声音事件，Z_i[n]＝0表示X_i上不存在第n个声音事件；训练时，将每个音频段X_i看做由一组帧组成的包，其中M表示单个音频段中帧的个数，x_im表示第i个音频段X_i的第m帧。

3.如权利要求1所述的一种基于多实例学习的弱监督声音事件检测方法，其特征在于：步骤二的具体实现方式如下；

首先提取训练样本的声学特征，使用帧长1024，帧移400，1024点傅里叶变换和128个梅尔滤波器来提取每个音频X_i的梅尔谱图做为声学特征，然后将每一帧声学特征送入帧级分类器得到帧级预测：

y_im＝f(x_im)

y_im表示第i个音频段的第m帧在N个事件上的预测概率，其中M表示单个音频段中帧的个数，x_im表示第i个音频段X_i的第m帧；帧级分类器T由一个帧级特征提取器f_θ(·)和一个分类层f_c(·)组成；f_θ(·)由3个卷积神经网络块和一个双向循环神经网络GRU构成，每个卷积神经网络块分别包括：32、64、128个5×5维卷积核，ReLU激活函数，2×2最大池化层，GRU包含100个隐藏单元；f_c(·)就是一个简单的全连接层。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210789715.4/1.html，转载请声明来源钻瓜专利网。

上一篇：工艺检查方法、装置、设备和存储介质
下一篇：一种抗风结壳抑尘剂及其制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多实例学习的弱监督声音事件检测方法在审

专利文献下载