[发明专利]一种基于深度互信息最大化的半监督音频事件识别方法有效

申请号：	202010661214.9	申请日：	2020-07-10
公开（公告）号：	CN111859010B	公开（公告）日：	2022-06-03
发明（设计）人：	刘半藤;郑启航;王章权;陈友荣	申请（专利权）人：	浙江树人学院(浙江树人大学)
主分类号：	G06F16/65	分类号：	G06F16/65;G06K9/62;G06N3/08;G10L25/18;G10L25/30;G10L25/54
代理公司：	绍兴市寅越专利代理事务所(普通合伙) 33285	代理人：	邓爱民
地址：	312303 浙江省绍***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度互信最大化监督音频事件识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度互信息最大化的半监督音频事件识别方法，其特征在于：内容包括：

步骤1：构建样本数据集，样本数据集中包括无标签样本和有标签样本；

步骤2：构建半监督神经网络模型和互信息判别器模型，对输入的无标签样本进行数据增强，并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取；有标签样本输出相应的分类概率分布，并计算其分类损失；无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量，将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接，获得表征向量重组矩阵；将表征向量重组矩阵输入至互信息判别器模型进行计算，得到互信息损失，将互信息损失与分类损失结合得到半监督神经网络模型的总体损失目标函数；

步骤3：对半监督神经网络模型参数进行优化，并输出训练好的半监督神经网络模型；

步骤4：将待分类识别的音频样本进行预处理，然后输入训练好的半监督神经网络模型，最后输出对应的分类类别；

所述步骤1中样本数据集的构建内容如下：

步骤1.1：开始遍历所有音频样本；

步骤1.2：对音频样本进行STFT变换和对数Mel滤波，获得含不确定长度L的对数Mel频谱，并设置维度判断值；

步骤1.3：进行维度判断，若不确定长度L未超过设定维度值，则将获得的对数Mel频谱随机放入所设定维度的空矩阵中；若不确定长度L超过设定维度值，将对数Mel频谱随机裁剪使其符合设定维度；

步骤1.4：将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位，获得输入样本；

步骤1.5：判断输入样本是否含有标签，若含有标签则将音频数据与标签形成样本对保存成标签样本，若不含标签则保存为无标签样本；

步骤1.6：判断是否遍历所有样本，是则退出，否则选择下一个样本重新执行步骤1.2；

所述步骤2中输入的无标签样本为u_i，数据增强后的无标签样本为输入的有标签样本对为x_i,p_i，分类概率分布为q_i，对于无标签样本数据增强前、后的深度表征向量为z_i和输入的样本批大小为N；分类损失L_label采用对p_i，q_i计算二分类交叉熵方式计算，如下式所示：

表征向量重组矩阵FeatrueMat表示如下：

互信息损失L_global计算表达式如下，σ表示Sigmoid函数：