[发明专利]生物声音事件检测模型训练方法、声音事件的检测方法有效
申请号: | 202111012585.5 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113724733B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 龙艳花;唐甜甜;李轶杰 | 申请(专利权)人: | 上海师范大学;云知声(上海)智能科技有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/51;G06N3/0464;G06F18/214 |
代理公司: | 深圳紫晴专利代理事务所(普通合伙) 44646 | 代理人: | 付钦伟 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物 声音 事件 检测 模型 训练 方法 | ||
1.一种生物声音事件检测模型训练方法,其特征在于,包括:
获取包含生物声音事件的样本音频数据集以及所述样本音频数据集对应的样本音频标签数据集,其中,所述样本音频数据集中的每个样本音频与所述样本音频标签数据集中的一个样本音频标签对应;
将所述样本音频数据集中的每个样本音频输入待训练的声音事件检测模型,得到所述样本音频数据集中每个样本音频对应的第一特征矩阵,其中,所述待训练的声音事件检测模型中包括用于与样本音频进行比对的N类标准音频,所述N为大于等于1的正整数;
所述每个样本音频对应的第一特征矩阵通过高维特征提取器进行处理,得到所述每个样本音频对应的高维特征向量;
将所述每个样本音频对应的高维特征向量进行正则化插值运算,得到所述每个样本音频对应的第二特征向量;
根据所述每个样本音频对应的第二特征向量与N类标准特征向量,确定所述样本音频数据集对应的预测音频标签数据集,其中,所述预测音频标签数据集包括所述样本音频数据集中每个样本音频的预测音频标签,所述N类标准特征向量与N类标准音频一一对应;
在所述样本音频标签数据集与所述预测音频标签数据集对应的损失函数满足预设条件的情况下,将所述待训练的声音事件检测模型确定为目标声音检测模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述每个样本音频对应的高维特征向量进行正则化插值运算,得到所述每个样本音频对应的第二特征向量,包括:
获取所述高维特征向量对应的一组特征向量;
计算所述一组特征向量中的每一对特征向量的欧式距离;
根据所述欧式距离计算邻接矩阵;
对邻接矩阵进行拉普拉斯算子运算,得到传播矩阵;
根据所述传播矩阵,确定所述第二特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个样本音频对应的第二特征向量与N类标准特征向量,确定所述样本音频数据集对应的预测音频标签数据集,包括:
对所述样本音频数据集中的每个样本视频执行如下操作:
计算所述每个样本音频对应的第二特征向量分别与所述N类标准音频特征向量之间的相似度,得到N个相似度值;
确定与所述N个相似度值中最小值对应的目标标准音频特征向量;
将所述目标标准音频特征向量所对应的一类标准音频的目标样本标签确定为所述样本音频的预测音频标签,其中,所述样本音频数据集的预测音频标签数据集包括所述样本音频数据集中每个样本音频的预测音频标签。
4.根据权利要求1所述的方法,其特征在于,所述将所述样本音频数据集中的每个样本音频输入待训练的声音事件检测模型,得到所述样本音频数据集中每个样本音频对应的第一特征矩阵,包括:
将所述每个样本音频进行重采样处理,得到采样样本音频;
将所述采样样本音频输入所述待训练的声音事件检测模型,得到所述每个样本音频对应的所述第一特征矩阵。
5.根据权利要求4所述的方法,其特征在于,所述将所述采样样本音频输入所述待训练的声音事件检测模型,得到所述每个样本音频对应的所述第一特征矩阵,包括:
对所述采样样本音频进行分帧、加窗处理操作,得到中间样本音频;
将所述中间样本音频进行离散傅里叶变换,得到所述第一特征矩阵。
6.根据权利要求4所述的方法,其特征在于,所述将所述每个样本音频进行重采样处理,得到采样样本音频,包括:
将所述每个样本音频进行升采样或降采样,得到所述采样样本音频,所述重采样处理包括升采样或降采样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学;云知声(上海)智能科技有限公司,未经上海师范大学;云知声(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111012585.5/1.html,转载请声明来源钻瓜专利网。