[发明专利]基于多尺度时频图并行输入卷积神经网络的歌声检测方法在审

申请号：	202110912362.8	申请日：	2021-08-10
公开（公告）号：	CN113627327A	公开（公告）日：	2021-11-09
发明（设计）人：	桂文明	申请（专利权）人：	金陵科技学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	蒋昱
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于尺度时频图并行输入卷积神经网络歌声检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于多尺度时频图并行输入卷积神经网络的歌声检测方法。一般基于卷积神经网络的歌声检测算法中，网络输入层是一个二维的时频图矩阵，本发明首先根据音乐信号的多尺度特性，通过调整短时傅里叶变换的窗长，生成不同尺度的多个二维时频图矩阵，然后将这多个时频图以并行多通道的方式送入卷积神经网络，使得卷积神经网络的神经元感受野能同时观察到音乐信号的多个尺度的信息，从而增强神经元的时频图特征提取和分辨能力，提高歌声检测的整体性能。

技术领域

本发明涉及音乐人工智能技术领域，特别是涉及到基于多尺度时频图并行输入卷积神经网络的歌声检测方法。

背景技术

关于歌声检查的背景技术，申请人在基于挤压和激励残差网络的歌声检测方法(申请号：CN202010164594.5)和一种基于点积自注意力卷积神经网络的歌声检测方法(专利号：ZL202110192300.4)中均有阐述。歌声检测(Singing Voice Detection，SVD)是判断数字音乐中的每一小段音频是否含有歌声的过程，其检测精度一般在50-200毫秒之间。歌声检测是音乐信息检索(Music Information Retrieval，MIR)领域的重要基础性工作，很多其他研究方向比如歌手识别，歌声分离，歌词对齐等都需要歌声检测作为事前必备技术或者增强技术。在音乐中，除了歌声，一般还含有乐器的声音，虽然对人来说，要在混合了乐器和歌声的音乐片段中判断是否含歌声，是轻而易举的事情，但对机器来说，目前仍是颇具挑战性的工作。

歌声检测的过程一般包括预处理、特征提取、分类和后处理等几部分，其中特征提取和分类是最重要的两大步骤。在特征提取过程中，最简单常用的特征是经过短时傅里叶变换后的时频图，其变形包括梅尔时频图和对数梅尔时频图。其他特征一般是基于时频图加工而提取的，比如梅尔频率倒谱系数MFCCs(Mel Frequency Cepstral Coefficients)，动谱特征(Fluctogram)，谱平坦因子(Spectral Flatness)，谱收缩因子(SpectralContraction)等等；在分类过程中，主要的分类方法包括基于传统分类器的方法和基于深度神经网络DNN(Deep Neural Network)的方法，前者包括支持向量SVM(Support VectorMachine)，隐马尔可夫模型HMM(Hidden Markov Model)，随机森林RF(Random Forest)等；后者包括采用卷积神经网络CNN(Convolutional Neural Network)和循环神经网络RNN(Recurrent Neural Network)的方法。

针对歌声检测问题，申请人申请了基于挤压和激励残差网络的歌声检测方法申请号：CN202010164594.5，该发明提出了一种基于挤压和激励残差网络的歌声检测方法。该方法包括以下步骤：构建挤压和激励残差网络；构造音乐数据集；把音乐数据集转换成图像集；用训练图像集分别训练构建的网络；用测试图像集分别测试训练好的各网络；选择测试正确率最高的网络为最终的歌声检测网络；用选定的网络对被检测的音频文件进行歌声检测。该发明通过深度残差网络隐含提取不同层次的歌声特征，并能利用嵌入的挤压和激励模块的自适应注意力特性判断这些特征的重要性，其在JMD数据集下，在深度分别为14，18，34，50，101，512，200的情况下，其检测准确率平均值为88.19，效果还是有待提高。此外该发明堆叠网络的方式消耗计算资源多，训练时间成长。

针对歌声检测问题，申请人还申请了一种基于点积自注意力卷积神经网络的歌声检测方法，专利号：ZL202110192300.4，该发明提出一种基于点积自注意力卷积神经网络的歌声检测方法，在卷积神经网络中嵌入点积自注意力模块，嵌入方法是在两个卷积组模块后分别嵌入点积自注意力模块对其输出的特征进行注意力权重重估，并把重估后的特征图送入到网络的下一层，该模块使得卷积网络学习到的特征在网络中的注意力分布不再是相同的，这种注意力重估机制使得各特征得到网络不同的对待，从而提升整体网络性能。此外，该发明的点积自注意力模块对传统应用于机器翻译的点积自注意力模型进行了改进，首先是使得向量键值对k，v和查询向量q的长度不等，其次对q，k，v的表达含义进行重新定义，再次增加了注意力分布变换机制。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于金陵科技学院，未经金陵科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110912362.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多尺度时频图并行输入卷积神经网络的歌声检测方法在审

专利文献下载