[发明专利]一种基于深度互信息最大化的半监督音频事件识别方法有效

专利信息
申请号: 202010661214.9 申请日: 2020-07-10
公开(公告)号: CN111859010B 公开(公告)日: 2022-06-03
发明(设计)人: 刘半藤;郑启航;王章权;陈友荣 申请(专利权)人: 浙江树人学院(浙江树人大学)
主分类号: G06F16/65 分类号: G06F16/65;G06K9/62;G06N3/08;G10L25/18;G10L25/30;G10L25/54
代理公司: 绍兴市寅越专利代理事务所(普通合伙) 33285 代理人: 邓爱民
地址: 312303 浙江省绍*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 互信 最大化 监督 音频 事件 识别 方法
【权利要求书】:

1.一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:内容包括:

步骤1:构建样本数据集,样本数据集中包括无标签样本和有标签样本;

步骤2:构建半监督神经网络模型和互信息判别器模型,对输入的无标签样本进行数据增强,并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取;有标签样本输出相应的分类概率分布,并计算其分类损失;无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量,将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接,获得表征向量重组矩阵;将表征向量重组矩阵输入至互信息判别器模型进行计算,得到互信息损失,将互信息损失与分类损失结合得到半监督神经网络模型的总体损失目标函数;

步骤3:对半监督神经网络模型参数进行优化,并输出训练好的半监督神经网络模型;

步骤4:将待分类识别的音频样本进行预处理,然后输入训练好的半监督神经网络模型,最后输出对应的分类类别;

所述步骤1中样本数据集的构建内容如下:

步骤1.1:开始遍历所有音频样本;

步骤1.2:对音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;

步骤1.3:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;

步骤1.4:将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;

步骤1.5:判断输入样本是否含有标签,若含有标签则将音频数据与标签形成样本对保存成标签样本,若不含标签则保存为无标签样本;

步骤1.6:判断是否遍历所有样本,是则退出,否则选择下一个样本重新执行步骤1.2;

所述步骤2中输入的无标签样本为ui,数据增强后的无标签样本为输入的有标签样本对为xi,pi,分类概率分布为qi,对于无标签样本数据增强前、后的深度表征向量为zi和输入的样本批大小为N;分类损失Llabel采用对pi,qi计算二分类交叉熵方式计算,如下式所示:

表征向量重组矩阵FeatrueMat表示如下:

互信息损失Lglobal计算表达式如下,σ表示Sigmoid函数:

总体损失目标函数L表达式如下:

L=λ·Lglobal+γ·Llabel

其中,λ表示互信息损失的权重,γ表示分类损失的权重;所述步骤4中对待分类识别的音频样本进行预处理内容如下:

步骤4.1:对待分类音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;

步骤4.2:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;

步骤4.3:将步骤4.2中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;所述步骤4中对待分类识别的音频样本的分类识别包括如下内容:将获得的输入样本输入训练好的半监督神经网络模型中获得概率分布向量p,根据分类判别阈值thresh按下式预测当前样本的类别I:

其中,k为类别索引序号,C为类别总数。

2.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤2中数据增强内容包括:以50%的概率对无标签样本进行频率扭曲、以50%的概率对无标签样本进行时间扭曲、以50%的概率对无标签样本进行频率掩盖、以50%的概率对无标签样本进行时间掩盖。

3.根据权利要求2所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤3中对半监督神经网络模型参数优化内容如下:

步骤3.1:设置学习率a、迭代次数iter、互信息损失权重λ、分类损失权重γ;

步骤3.2:输入样本对,计算出总体损失L

步骤3.3:采用梯度下降法调整模型权重参数;

步骤3.4:更新迭代次数,并判断迭代次数是否超过设定的迭代次数iter,若超过则输出训练好的半监督神经网络模型,若未超过则返回步骤3.2继续迭代训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江树人学院(浙江树人大学),未经浙江树人学院(浙江树人大学)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010661214.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top