[发明专利]基于多尺度时频图并行输入卷积神经网络的歌声检测方法在审
申请号: | 202110912362.8 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113627327A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 桂文明 | 申请(专利权)人: | 金陵科技学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 时频图 并行 输入 卷积 神经网络 歌声 检测 方法 | ||
1.基于多尺度时频图并行输入卷积神经网络的歌声检测方法,其特征在于:具体步骤如下:
步骤1:对单个音乐文件进行短时傅里叶变换,通过不同的窗口长度wi,i∈[1..n],得到不同尺度的时频图Fi,i∈[1..n],并以n个数据文件的形式保存;
步骤2:设定训练、验证和测试数据集,每种数据集应包含对应音乐的歌声标注信息;
1)对每个数据集内的单个音乐文件按步骤1进行短时傅里叶变换,得到n个尺度的时频图文件,若数据集中总共有m个音乐文件,那么生成的时频图文件总数是m×n;
2)对训练、验证和测试数据集的时频图文件在时间轴上进行矩阵数据分片操作,分片矩阵的行数保持和时频图文件相同,每个分片矩阵对应一个小图像,设小图像的长和宽为h和w,为了保持数据的连续性,分片矩阵的数据存在一定的重复,因此,分片的间隔时间hop小于矩阵的宽度,对于时频图文件最后一个分片宽度小于w的矩阵进行补零操作,分片后的小图像按音乐文件顺序排序编号,训练、验证、测试集的所有小图像分别表示为Ti,j,Vi,k,Ui,l其中i表示尺度序号、j,k,l分别表示训练、验证和测试数据集中的小图像序号,同一音乐的不同尺度的时频文件在进行矩阵分片时,参数h、w和hop保持相同,因此,不同尺度对应的小图像对应的时间点是一样的,相同时间点的所有尺度的小图像组合记为其中小图像是单通道数据;
3)计算训练、验证、测试数据集中所有小图像数据的最大和最小值,并以矩阵Mmax,Mmin保存,作为小图像数据进行归一化操作的参数;
4)以矩阵Mmax,Mmin为参数,对所有小图像进行最大最小值归一化,得到小图像组合
5)对小图像组合进行三通道灰度图像转换,转换后的图像数据的值大小在0-255之间,虽然灰度图像的三个通道数据一样,但是三通道灰度图像是模拟肉眼可见的更直观数据表示,而且多出两个通道的数据,使得特征的维度增加,在一定程度上更有利于神经网络对数据进行特征提取。转换后的小图像组合记为其中每个小图像是三通道数据。
6)计算中所有小图像数据的均值和方差,此处均值和方差是每个通道所有小图像数据的汇总信息,和第3)步矩阵形式不一样,因为每个通道只汇总一个均值和方差,所以均值和方差分别只有3个相等的数值,记为u,σ。
7)对以参数u,σ进行标准化操作,转换成待输入到卷积神经网络的的小图像组合
8)根据音乐的歌声标注信息,计算每个多尺度多通道小图像组合对应的标注信息yj,yk,yl;
步骤3:构造具有n个尺度小图像输入的基于卷积神经网络的歌声检测网络,其中输入通道数量为3×n个;
卷积神经网络结构图包含四个组成部分:
第一部分是输入层,此处输入层具有3×n个输入通道;
第二和第三部分结构相同,是通道注意卷积层,分别有2个BN卷积块、1个最大值池化层和1个SEBlock通道注意层组成;
BN卷积块和SEBolck的结构,其中BN卷积块由1个3×3卷积、1个BatchNorm层、后跟Relu单元组成;SEBlock是一个挤压和激励模块,假定上一层卷积输出F是高和宽为h×w的图片,通道数量为c,挤压操作是一个全局平局池化层,将c个通道压缩成c个描述符;激励操作第一步是一个门机制,具体包括第一个全连接层将c个描述符以r倍降维,然后利用Relu函数进行非线性化,接着是第二个全连接层r倍增维;激励操作第二步首先利用Sigmod激活函数对通道进行权重估值,然后通过Scale操作对各通道按权重估值进行调整,最后调整后的通道F′进入下一层网络,SEBlock使得各通道对下一层网络的作用发生变化,权重不再是相等的,而是通过学习得到的,这个过程实质是通道注意力的学习和分配过程;第四部分是特征向量提取层,包括3个全连接层和2个Dropout层,全连接层保存了前面卷积层抽取的高层信息,并以特征向量的形式进一步降维,最终输出的一维数据决定输入的n个尺度时频图对应的歌声片段是否含有歌声,将输出的一维数据用Sigmod函数转换成概率值,然后再运用加权二分类交叉熵损失函数计算训练的损失;
步骤4:训练并测试,统计评估结果;
1)从步骤2中得到的训练数据集的小图像组合中随机抽取一批b个小图像组合和对应标注ys,s=[1..b],输入到步骤3中的神经网络进行训练,当一批次训练结束后再从剩余的数据集中,再次随机抽取b个小图像组合,直到所有训练数据集的数据抽取完毕后,一轮训练结束;如果训练轮数达到设定的限制轮数则停止训练进入测试;
2)从步骤2中得到的设定的验证数据集的小图像组合中按顺序取出一批b个小图像组合和对应标注ys,s=[1..b],输入到步骤3中的神经网络进行验证,得到该批次的预测结果;当一批次验证结束后再从剩余的数据集中,按顺序抽取b个小图像组合,直到所有验证数据集的数据抽取完毕后,一次验证结束;一次验证结束后,得到预测结果的准确率,如果准确率连续e次没有提高,则训练停止,否则继续执行步骤1)进行训练;
3)从步骤2中得到的测试数据集中的小图像组合中按顺序取出一批b个小图像组合和对应标注ys,s=[1..b],输入到步骤3中的神经网络进行测试,得到该批次的预测结果;当一批次验证结束后再从剩余的数据集中,按顺序抽取b个小图像组合,直到所有测试数据集的数据抽取完毕后;
4)测试结束后,首先计算每首歌的歌声检测的评估指标,然后计算所有歌曲的指标的平均值就是本次测试的评估结果;
如果预测结果是歌声,称之为正向P,如果预测结果不是歌声,称之为负向N;通过和数据集中的歌声标注进行比较,如果预测结果是正确的,记为T,如果预测结果错误,记为F,由此预测结果的样本数量Qtp,Ofp,Ofn,Ofp分别记为:
Otp:预测结果正确T,预测为正向P的样本总数量;
Otn:预测结果正确T,预测为负向N的样本总数量;
Ofp:预测结果错误F,预测为正向P的样本总数量,即误报的样本总数量;
Ofn:预测结果错误F,预测为负向N的样本总数量,即漏报的样本总数量;
对于每首歌,分别计算准确率A、精确率P、召回率R和F值,其中F值是精确率P和召回率R的综合:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110912362.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:神经活性类固醇、其组合物及用途
- 下一篇:一种皮肤科真菌检测玻片消毒设备