[发明专利]基于多尺度时频图并行输入卷积神经网络的歌声检测方法在审

专利信息
申请号: 202110912362.8 申请日: 2021-08-10
公开(公告)号: CN113627327A 公开(公告)日: 2021-11-09
发明(设计)人: 桂文明 申请(专利权)人: 金陵科技学院
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京众联专利代理有限公司 32206 代理人: 蒋昱
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 尺度 时频图 并行 输入 卷积 神经网络 歌声 检测 方法
【权利要求书】:

1.基于多尺度时频图并行输入卷积神经网络的歌声检测方法,其特征在于:具体步骤如下:

步骤1:对单个音乐文件进行短时傅里叶变换,通过不同的窗口长度wi,i∈[1..n],得到不同尺度的时频图Fi,i∈[1..n],并以n个数据文件的形式保存;

步骤2:设定训练、验证和测试数据集,每种数据集应包含对应音乐的歌声标注信息;

1)对每个数据集内的单个音乐文件按步骤1进行短时傅里叶变换,得到n个尺度的时频图文件,若数据集中总共有m个音乐文件,那么生成的时频图文件总数是m×n;

2)对训练、验证和测试数据集的时频图文件在时间轴上进行矩阵数据分片操作,分片矩阵的行数保持和时频图文件相同,每个分片矩阵对应一个小图像,设小图像的长和宽为h和w,为了保持数据的连续性,分片矩阵的数据存在一定的重复,因此,分片的间隔时间hop小于矩阵的宽度,对于时频图文件最后一个分片宽度小于w的矩阵进行补零操作,分片后的小图像按音乐文件顺序排序编号,训练、验证、测试集的所有小图像分别表示为Ti,j,Vi,k,Ui,l其中i表示尺度序号、j,k,l分别表示训练、验证和测试数据集中的小图像序号,同一音乐的不同尺度的时频文件在进行矩阵分片时,参数h、w和hop保持相同,因此,不同尺度对应的小图像对应的时间点是一样的,相同时间点的所有尺度的小图像组合记为其中小图像是单通道数据;

3)计算训练、验证、测试数据集中所有小图像数据的最大和最小值,并以矩阵Mmax,Mmin保存,作为小图像数据进行归一化操作的参数;

4)以矩阵Mmax,Mmin为参数,对所有小图像进行最大最小值归一化,得到小图像组合

5)对小图像组合进行三通道灰度图像转换,转换后的图像数据的值大小在0-255之间,虽然灰度图像的三个通道数据一样,但是三通道灰度图像是模拟肉眼可见的更直观数据表示,而且多出两个通道的数据,使得特征的维度增加,在一定程度上更有利于神经网络对数据进行特征提取。转换后的小图像组合记为其中每个小图像是三通道数据。

6)计算中所有小图像数据的均值和方差,此处均值和方差是每个通道所有小图像数据的汇总信息,和第3)步矩阵形式不一样,因为每个通道只汇总一个均值和方差,所以均值和方差分别只有3个相等的数值,记为u,σ。

7)对以参数u,σ进行标准化操作,转换成待输入到卷积神经网络的的小图像组合

8)根据音乐的歌声标注信息,计算每个多尺度多通道小图像组合对应的标注信息yj,yk,yl

步骤3:构造具有n个尺度小图像输入的基于卷积神经网络的歌声检测网络,其中输入通道数量为3×n个;

卷积神经网络结构图包含四个组成部分:

第一部分是输入层,此处输入层具有3×n个输入通道;

第二和第三部分结构相同,是通道注意卷积层,分别有2个BN卷积块、1个最大值池化层和1个SEBlock通道注意层组成;

BN卷积块和SEBolck的结构,其中BN卷积块由1个3×3卷积、1个BatchNorm层、后跟Relu单元组成;SEBlock是一个挤压和激励模块,假定上一层卷积输出F是高和宽为h×w的图片,通道数量为c,挤压操作是一个全局平局池化层,将c个通道压缩成c个描述符;激励操作第一步是一个门机制,具体包括第一个全连接层将c个描述符以r倍降维,然后利用Relu函数进行非线性化,接着是第二个全连接层r倍增维;激励操作第二步首先利用Sigmod激活函数对通道进行权重估值,然后通过Scale操作对各通道按权重估值进行调整,最后调整后的通道F′进入下一层网络,SEBlock使得各通道对下一层网络的作用发生变化,权重不再是相等的,而是通过学习得到的,这个过程实质是通道注意力的学习和分配过程;第四部分是特征向量提取层,包括3个全连接层和2个Dropout层,全连接层保存了前面卷积层抽取的高层信息,并以特征向量的形式进一步降维,最终输出的一维数据决定输入的n个尺度时频图对应的歌声片段是否含有歌声,将输出的一维数据用Sigmod函数转换成概率值,然后再运用加权二分类交叉熵损失函数计算训练的损失;

步骤4:训练并测试,统计评估结果;

1)从步骤2中得到的训练数据集的小图像组合中随机抽取一批b个小图像组合和对应标注ys,s=[1..b],输入到步骤3中的神经网络进行训练,当一批次训练结束后再从剩余的数据集中,再次随机抽取b个小图像组合,直到所有训练数据集的数据抽取完毕后,一轮训练结束;如果训练轮数达到设定的限制轮数则停止训练进入测试;

2)从步骤2中得到的设定的验证数据集的小图像组合中按顺序取出一批b个小图像组合和对应标注ys,s=[1..b],输入到步骤3中的神经网络进行验证,得到该批次的预测结果;当一批次验证结束后再从剩余的数据集中,按顺序抽取b个小图像组合,直到所有验证数据集的数据抽取完毕后,一次验证结束;一次验证结束后,得到预测结果的准确率,如果准确率连续e次没有提高,则训练停止,否则继续执行步骤1)进行训练;

3)从步骤2中得到的测试数据集中的小图像组合中按顺序取出一批b个小图像组合和对应标注ys,s=[1..b],输入到步骤3中的神经网络进行测试,得到该批次的预测结果;当一批次验证结束后再从剩余的数据集中,按顺序抽取b个小图像组合,直到所有测试数据集的数据抽取完毕后;

4)测试结束后,首先计算每首歌的歌声检测的评估指标,然后计算所有歌曲的指标的平均值就是本次测试的评估结果;

如果预测结果是歌声,称之为正向P,如果预测结果不是歌声,称之为负向N;通过和数据集中的歌声标注进行比较,如果预测结果是正确的,记为T,如果预测结果错误,记为F,由此预测结果的样本数量Qtp,Ofp,Ofn,Ofp分别记为:

Otp:预测结果正确T,预测为正向P的样本总数量;

Otn:预测结果正确T,预测为负向N的样本总数量;

Ofp:预测结果错误F,预测为正向P的样本总数量,即误报的样本总数量;

Ofn:预测结果错误F,预测为负向N的样本总数量,即漏报的样本总数量;

对于每首歌,分别计算准确率A、精确率P、召回率R和F值,其中F值是精确率P和召回率R的综合:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110912362.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top