[发明专利]基于多尺度时频图并行输入卷积神经网络的歌声检测方法在审

申请号：	202110912362.8	申请日：	2021-08-10
公开（公告）号：	CN113627327A	公开（公告）日：	2021-11-09
发明（设计）人：	桂文明	申请（专利权）人：	金陵科技学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	蒋昱
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于尺度时频图并行输入卷积神经网络歌声检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多尺度时频图并行输入卷积神经网络的歌声检测方法，其特征在于：具体步骤如下：

步骤1：对单个音乐文件进行短时傅里叶变换，通过不同的窗口长度w_i，i∈[1..n]，得到不同尺度的时频图F_i，i∈[1..n]，并以n个数据文件的形式保存；

步骤2：设定训练、验证和测试数据集，每种数据集应包含对应音乐的歌声标注信息；

1)对每个数据集内的单个音乐文件按步骤1进行短时傅里叶变换，得到n个尺度的时频图文件，若数据集中总共有m个音乐文件，那么生成的时频图文件总数是m×n；

2)对训练、验证和测试数据集的时频图文件在时间轴上进行矩阵数据分片操作，分片矩阵的行数保持和时频图文件相同，每个分片矩阵对应一个小图像，设小图像的长和宽为h和w，为了保持数据的连续性，分片矩阵的数据存在一定的重复，因此，分片的间隔时间hop小于矩阵的宽度，对于时频图文件最后一个分片宽度小于w的矩阵进行补零操作，分片后的小图像按音乐文件顺序排序编号，训练、验证、测试集的所有小图像分别表示为T_i，j，V_i，k，U_i，l其中i表示尺度序号、j，k，l分别表示训练、验证和测试数据集中的小图像序号，同一音乐的不同尺度的时频文件在进行矩阵分片时，参数h、w和hop保持相同，因此，不同尺度对应的小图像对应的时间点是一样的，相同时间点的所有尺度的小图像组合记为其中小图像是单通道数据；

3)计算训练、验证、测试数据集中所有小图像数据的最大和最小值，并以矩阵M_max，M_min保存，作为小图像数据进行归一化操作的参数；

4)以矩阵M_max，M_min为参数，对所有小图像进行最大最小值归一化，得到小图像组合

5)对小图像组合进行三通道灰度图像转换，转换后的图像数据的值大小在0-255之间，虽然灰度图像的三个通道数据一样，但是三通道灰度图像是模拟肉眼可见的更直观数据表示，而且多出两个通道的数据，使得特征的维度增加，在一定程度上更有利于神经网络对数据进行特征提取。转换后的小图像组合记为其中每个小图像是三通道数据。

6)计算中所有小图像数据的均值和方差，此处均值和方差是每个通道所有小图像数据的汇总信息，和第3)步矩阵形式不一样，因为每个通道只汇总一个均值和方差，所以均值和方差分别只有3个相等的数值，记为u，σ。

7)对以参数u，σ进行标准化操作，转换成待输入到卷积神经网络的的小图像组合

8)根据音乐的歌声标注信息，计算每个多尺度多通道小图像组合对应的标注信息y_j，y_k，y_l；

步骤3：构造具有n个尺度小图像输入的基于卷积神经网络的歌声检测网络，其中输入通道数量为3×n个；

卷积神经网络结构图包含四个组成部分：

第一部分是输入层，此处输入层具有3×n个输入通道；

第二和第三部分结构相同，是通道注意卷积层，分别有2个BN卷积块、1个最大值池化层和1个SEBlock通道注意层组成；

BN卷积块和SEBolck的结构，其中BN卷积块由1个3×3卷积、1个BatchNorm层、后跟Relu单元组成；SEBlock是一个挤压和激励模块，假定上一层卷积输出F是高和宽为h×w的图片，通道数量为c，挤压操作是一个全局平局池化层，将c个通道压缩成c个描述符；激励操作第一步是一个门机制，具体包括第一个全连接层将c个描述符以r倍降维，然后利用Relu函数进行非线性化，接着是第二个全连接层r倍增维；激励操作第二步首先利用Sigmod激活函数对通道进行权重估值，然后通过Scale操作对各通道按权重估值进行调整，最后调整后的通道F′进入下一层网络，SEBlock使得各通道对下一层网络的作用发生变化，权重不再是相等的，而是通过学习得到的，这个过程实质是通道注意力的学习和分配过程；第四部分是特征向量提取层，包括3个全连接层和2个Dropout层，全连接层保存了前面卷积层抽取的高层信息，并以特征向量的形式进一步降维，最终输出的一维数据决定输入的n个尺度时频图对应的歌声片段是否含有歌声，将输出的一维数据用Sigmod函数转换成概率值，然后再运用加权二分类交叉熵损失函数计算训练的损失；

步骤4：训练并测试，统计评估结果；

1)从步骤2中得到的训练数据集的小图像组合中随机抽取一批b个小图像组合和对应标注y_s，s＝[1..b]，输入到步骤3中的神经网络进行训练，当一批次训练结束后再从剩余的数据集中，再次随机抽取b个小图像组合，直到所有训练数据集的数据抽取完毕后，一轮训练结束；如果训练轮数达到设定的限制轮数则停止训练进入测试；

2)从步骤2中得到的设定的验证数据集的小图像组合中按顺序取出一批b个小图像组合和对应标注y_s，s＝[1..b]，输入到步骤3中的神经网络进行验证，得到该批次的预测结果；当一批次验证结束后再从剩余的数据集中，按顺序抽取b个小图像组合，直到所有验证数据集的数据抽取完毕后，一次验证结束；一次验证结束后，得到预测结果的准确率，如果准确率连续e次没有提高，则训练停止，否则继续执行步骤1)进行训练；

3)从步骤2中得到的测试数据集中的小图像组合中按顺序取出一批b个小图像组合和对应标注y_s，s＝[1..b]，输入到步骤3中的神经网络进行测试，得到该批次的预测结果；当一批次验证结束后再从剩余的数据集中，按顺序抽取b个小图像组合，直到所有测试数据集的数据抽取完毕后；

4)测试结束后，首先计算每首歌的歌声检测的评估指标，然后计算所有歌曲的指标的平均值就是本次测试的评估结果；

如果预测结果是歌声，称之为正向P，如果预测结果不是歌声，称之为负向N；通过和数据集中的歌声标注进行比较，如果预测结果是正确的，记为T，如果预测结果错误，记为F，由此预测结果的样本数量Q_tp，O_fp，O_fn，O_fp分别记为：

O_tp：预测结果正确T，预测为正向P的样本总数量；

O_tn：预测结果正确T，预测为负向N的样本总数量；

O_fp：预测结果错误F，预测为正向P的样本总数量，即误报的样本总数量；

O_fn：预测结果错误F，预测为负向N的样本总数量，即漏报的样本总数量；

对于每首歌，分别计算准确率A、精确率P、召回率R和F值，其中F值是精确率P和召回率R的综合：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于金陵科技学院，未经金陵科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110912362.8/1.html，转载请声明来源钻瓜专利网。