[发明专利]一种端到端时域多尺度卷积神经网络的音源分离算法在审
申请号: | 202110597781.7 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113314140A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 卢迪;邢湘琦 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 时域 尺度 卷积 神经网络 音源 分离 算法 | ||
1.复杂环境下基于多尺度卷积神经网络的单音符实时提取识别算法,其特征在于,包括以下步骤:
1.步骤一、混合音频数据集的建立及处理。在该部分将本发明选用的纯净钢琴音频(MAPS)数据集合,纯净小提琴Bash10数据集,人声音频MIR-1K数据集。首先将三种数据集音频采样率调整到相同的44100HZ。再三种音频与噪音进行批量混叠,模拟出混合音频数据集Y。不同信噪比数据集生成:
SNR表示信噪比,其单位为dB;∑tx2(t)表示纯净人声音频能量;∑tn2(t)表示钢琴与小提琴叠加声音的音频能量。为了制作不同的特定信噪比的混合音频数据集,对噪声能量进行调整,如需q(dB)的混合音频,将噪声能量大小调整为原来α倍,即
根据上式可推出:
混合音频的公式为:
将音频数据集Y中各环境下的音频数据分成训练集、验证集和测试集。分配比例为训练集音频条数:验证集音频条数:测试集音频条数=3:2:2。
2.步骤二、构建多尺度卷积编码器对混合信号进行特征提取,本发明中只针对三个不同的时间尺度进行研究。是由于乐器音乐频率分布范围在在27.5HZ~4186.0HZ,分为低频(27.5HZ~123.47HZ)、中频(130.81HZ~739.99HZ)、高频(783.99HZ~4186.00HZ)三个频率段平行一维卷积神经网络(CNN)的滤波器长度不同,分为L_1(短)、L_2(中)、L_3(长)样本,以覆盖不同的窗口大小。
多尺度编码器运算表达式如下:
式中上标s表示不同卷积核大小。为最大池化以提高网络对时域音频信号表征能力与降低网络计算量。同单尺度编码器相同,输入的混合音频信号y(t)被分为K帧,卷积核宽度为N,卷积核滑动步长取编码器个数为P。
本发明中针对三个不同的时间尺度进行研究,即参数P=3。
时域音频信号经过3个时域卷积核处理,得到的输出特征维度为:
3.步骤三、设计含有深度可分离卷积与门控线性单元(GLU)的分离模块模块。本发明使用一个由堆叠的一维膨胀卷积块组成的全卷积分离模块。在各种序列建模任务中使用时序卷积神经网络(TCN)替代循环神经网络(RNN)。TCN模型中包含三个核心模块:因果卷积模块(Causal Convolution)、空洞卷积模块(扩张因果卷积模块)(Dilated Convolution)、残差模块(Residual Connection)。
本发明使用一个由堆叠的一维膨胀卷积块组成的全卷积分离模块,如图3所示。在各种序列建模任务中使用时序卷积神经网络(TCN)替代循环神经网络(RNN)。TCN中的每一层都由膨胀因子逐渐增加的一维卷积块组成。膨胀因子呈指数增长,以确保能包含足够大的时间窗口。其中M个膨胀因子分别为1,2,4...2M-1的卷积块被重复R次。每个块的输入都进行零填充,以确保输出长度与输入相同。为了进一步减少参数量,使用深度可分离卷积(S_conv)替代每个卷积块中的标准卷积。采用深度可分离卷积代替TCN中的普通卷积,先通过通道卷积对普通卷积在空间维度上进行分离,以增加网络宽度并扩大特征提取范围,再利用逐点卷积降低普通卷积操作的计算复杂度。
其中Z是S_conv(·)的输入,K是大小为P的卷积核zj和kj分别是矩阵Z和K的行,L是大小为1的卷积核,表示卷积操作。
在TCN中引入卷积门控线性单元。由于分离模块中的一维卷积堆叠层TCN对频率跨度较大的钢琴音频信号与环境背景信号分离处理效果不佳,因此本发明将引入一种选通门控机制处理特征信息流。模型计算公式如下:
其中其中XL与XL+1分别是第L层与L+1层的输出,WL与VL是L层的权重,bL与cL是为L层的偏差,σ是Sigmoid激活函数,*是卷积运算,是矩阵之间暗元素相乘。
针对本发明主要工作与分离模块中TCN框架,本发明在TCN中引入全卷积门控线性单元(GLU)。将两个门控线性单元添加到深度可分离卷积TCN中。其中第一个门应用于卷积块的第一个1×1卷积层中,目的在于控制流入的特征信息。第二个门应用于从深度可分离卷积层到输出1×1卷积层之间的所有层中,目的在于控制信息的处理与流出
TCN的输出将被馈送到核大小为1的卷积块以估计掩码。1×1卷积块与非线性激活函数一起为C个目标源估计C个掩码矢量。图1显示了每个一维卷积块的设计。这里面应用了残差路径和一种跳跃式路径传递:一个块的残差路径作为下一个块的输入,而所有块的跳跃式路径的总和作为时序卷积神经网络(TCN)的输出。
在第一个1×1conv(·)和D_conv(·)块之后分别添加了非线性激活函数和归一化操作。非线性激活函数是参数整流线性单位(PReLU):
网络中归一化方法使用全局层归一化(gLN)。在gLN中特征会在通道和时间维度上进行归一化:
其中F是特征,γ与β是可训练的参数,∈是一个为了数值稳定的小常量。提取模块的开始处添加了一个线性一维卷积块作为瓶颈层(bottleneck layer)。这个块确定了随后卷积块的输入路径和残差路径的通道数。该线性瓶颈层(bottleneck layer)具有B个通道,则对于通道数为H且核大小为P的一维卷积块,第一个1×1卷积块和第一个深度卷积D_conv块中的核大小应分别为和并且残差路径中的核大小应为下一模块输入残差连接(skip-connection path)中的输出通道数可以不同于B,将该路径中的核大小表示为LSc
4.步骤四、估计提取掩码通过估计C个向量(掩码)实现每帧的分离,mi∈R1×N,其中C是混合信号中噪音的数量且mi∈[0,1]。将mi应用到混合表示w上得到相应的源表示:
di=w⊙mi (14)
其中⊙表示对应点相乘。估计的目标钢琴音频波形信号通过解码器重建出来:
5.步骤五、解码器使用一维转置卷积运算从该表示形式重建出波形,可以将其用矩阵乘法表示为:
其中是重建的x,V∈RN×L的行是解码器的基函数,每个长为L。将重叠的重构段相加在一起以生成最终的波形。具体的音频数据提取流程框架图见附图说明图1。
实验配置:网络在5秒长的段上训练了150个epochs。初始学习率设置为1e-3。如果在3个连续的epochs内,验证集的准确性没有提高,则学习率将减半。优化器使用Adam。卷积自动编码器使用50%的stride size(即连续帧之间有50%的重叠)。训练期间应用最大L2范数为5的裁剪。
训练目标训练端到端系统的目的是最大化尺度不变的信噪比(SI-SNR)。SI-SNR定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110597781.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于服务设计理论的智能停车诱导系统
- 下一篇:一种基于超宽带的定位方法及设备