[发明专利]基于堆叠沙漏网络的音乐源分离方法有效
申请号: | 202011118473.3 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112259119B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 孙超 | 申请(专利权)人: | 深圳市策慧科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L25/18;G10L25/30 |
代理公司: | 深圳市兰锋盛世知识产权代理有限公司 44504 | 代理人: | 罗炳锋 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 堆叠 沙漏 网络 音乐 分离 方法 | ||
1.基于堆叠沙漏网络的音乐源分离方法,其特征在于,包括步骤:
S1、将原始混合语音信号经过分帧、加窗、傅里叶变换得到原始混合语音信号频谱图,所述原始混合语音信号频谱图包括原始混合信号幅度谱和原始混合信号相位谱;
S2、将原始混合信号幅度谱输入堆叠沙漏网络,所述堆叠沙漏网络包括四个以端对端的方式首尾堆叠的沙漏模块,原始混合信号幅度谱经过堆叠沙漏网络后得到第一人声预测值和第一伴奏预测值;每个沙漏模块下采样第一次卷积后的输出通道等差式递增;
S3、将第一人声预测值、第一伴奏预测值结合时频掩模得到经过时频掩模后的第二人声预测值和经过时频掩模后的第二伴奏预测值;将第二人声预测值和第二伴奏预测值分别与原始混合信号相位谱结合,并分别经过逆傅里叶变换得到预测人声信号和预测伴奏信号;
堆叠沙漏网络还包括一个由五个连续卷积层构成的初始卷积模块,所述卷积模块设置在四个沙漏模块之前,所述卷积模块不改变输入图像的大小,只增加图像的输出通道数;
四个沙漏模块均为四阶沙漏模块,输入的谱图在每个沙漏模块中都要经过四个连续的下采样,以不断减半输入谱图分辨率大小;
在每个沙漏模块下采样的第一次卷积时保持输出通道数不变,按照输出通道数1:1的比例来学习原始混合信号幅度谱的特征信息,在第一次卷积之后将输出通道依次加128,使每个沙漏模块中编码部分的输出通道大小依次为384、512、640、768。
2.如权利要求1所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,在每个沙漏模块内的卷积层后还设有一个注意力层,在每个沙漏模块的卷积层中还设有批标准化和Leaky_relu激活函数来改进反向梯度传播和参数的更新。
3.如权利要求1所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,在每个沙漏模块的下采样和解码部分上采样中,所有卷积层的卷积核大小均为3×3。
4.如权利要求1所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,沙漏模块采用真实谱图和预测谱图之间的L1范数作为损失函数,具体为:给定一个输入谱图X、第i个真实音乐源Yi,和第i个音乐源在第j个沙漏模块中生成的掩模那么第i个源的损失定义为:其中⊙表示元素相乘,L1范数为矩阵元素的绝对值之和。
5.如权利要求4所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,堆叠沙漏网络总的损失函数为:其中C为网络要分离源的数目。
6.如权利要求1所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,第二人声预测值和第二伴奏预测值的计算方法为:其中⊙表示元素相乘,和分别是第二人声预测值和第二伴奏预测值,xt为原始混合信号幅度谱,为时频掩模,且其中和分别为第一人声预测值和第一伴奏预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市策慧科技有限公司,未经深圳市策慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011118473.3/1.html,转载请声明来源钻瓜专利网。