[发明专利]一种基于深度学习的自动音乐转录方法有效
申请号: | 202011227287.3 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112397044B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 邵杰;张文;张永辉 | 申请(专利权)人: | 四川省人工智能研究院(宜宾) |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G10L25/18;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 杨浩林 |
地址: | 644000 四川省宜宾市临*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 自动 音乐 转录 方法 | ||
1.一种基于深度学习的自动音乐转录方法,其特征在于,包括以下步骤:
S1、对待转录的原始音乐波形文件进行下采样处理;
S2、对下采样处理后的波形文件进行时频转换,得到具有时间和频率维度的二维频谱图;
S3、通过初级特征提取网络对二维频谱图进行初步特征提取,得到具有初步特征的频谱图,作为时序卷积网络的输入;
S4、通过时序卷积网络对输入的具有频率结构信息的特征频谱图进行处理,得到具有时间结构信息的特征频谱图;
S5、对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,得到对应的双声道特征图,并将输入到立体声增强网络;
S6、通过立体声增强网络对输入的双声道特征图中的两个声道进行特征增强,得到声道增强的双声道特征图;
S7、通过音符预测输出网络对声道增强后的双声道特征图进行特征处理,得到每一帧的音符预测结果,进而实现自动音乐转录。
2.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S2具体为:
S21、对下采样得到波形文件中的立体声音乐信号进行分帧处理;
S22、对分帧后的每一帧进行短时傅里叶变换,并将到的频谱结果用dB尺度进行表示;
S23、通过一组对数滤波器组对dB尺度的频谱结果进行处理,并将处理得到的双声道频谱图连接起来,得到具有时间和频率维度的二维频谱图。
3.根据权利要求2所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S21中,对立体声音乐信号进行分帧处理时,每一帧大小为2048个采样点,前后两帧之间的重叠大小为512个采样点;
所述步骤S23中的对数滤波器组的频率范围为39Hz~6kHz,每个8度有48个频段,共有229个三角带通滤波器;
所述步骤S23中,得到形状大小为2×T×229×1的张量,作为具有时间和频率维度的二维频谱图,T为每个频谱图在时间维度所包含的帧数。
4.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S3中的初级特征提取网络包括依次连接的第一二维卷积层、第二二维卷积层和第一最大池化层;
所述第一二维卷积层的卷积核大小为3×7,步长为1,输出通道数为32;所述第二二维卷积层的卷积核为3×3,步长为1,输出通道数为32;所述第一最大池化层在频率维度执行最大池化操作,且其池化核及步长均为1×2。
5.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S4中的时序卷积网络包括依次连接的降维层、第一时序卷积块、第二时序卷积块、第三时序卷积块、第四时序卷积块、维度扩展层及融合层,所述融合层的第一输入端与维度扩展层的输出端连接,第二输入端与降维的输入端连接;
所述第一时序卷积块、第二时序卷积块、第三时序卷积块和第四时序卷积块结构相同均包括依次连接的第一一维卷积层、第一ReLU激活函数、第二一维卷积层、求和层和第二ReLU激活函数,所述求和层的第一输入端与第二ReLU激活函数连接,所述求和层的第二输入端与第一一维卷积层的输入端连接;
所述第一一维卷积层和第二一维卷积层的卷积核大小均为3,步长均为1,输出通道数均为32;
所述第一时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为1,
第二时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为2,
第三时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为3,
第四时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为4。
6.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S4具体为:
S41、对输入的特征频谱图在频率维度求平均值,降维成对应的时间序列向量;
S42、通过四个堆叠的时序卷积块对时间序列向量进行特征提取处理,并对处理后的时间序列向量进行维度扩展;
S43、将维度扩展后的时间序列向量与时序卷积网络输入的特征频谱图依次进行元素乘积与求和的融合处理,得到具有时间结构信息的特征频谱图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川省人工智能研究院(宜宾),未经四川省人工智能研究院(宜宾)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011227287.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种真空采血管盖帽复合装置
- 下一篇:一种登顶作业安全保护装置及系统