[发明专利]一种深度堆叠残差网络的语音分离方法有效
申请号: | 201910345455.X | 申请日: | 2019-04-26 |
公开(公告)号: | CN110120227B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 张涛;朱诚诚 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/24;G10L25/27;G10L21/0208 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 堆叠 网络 语音 分离 方法 | ||
1.一种深度堆叠残差网络的语音分离方法,其特征在于,包括如下步骤:
1)语音信号数据集的制作;
2)语音信号的特征提取,包括分别提取语音信号每一帧的:
梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、RelativeSpectral Transform-Perceptual Linear Prediction和短时傅里叶变换幅度谱;
3):深度堆叠残差网络的搭建
深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块(a)组成,所述的第一全连接通道是由3个第一全连接残差模块(b)组成,所述第二全连接通道是由3个第二全连接残差模块(c)组成,所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道;
4)学习标签的制作
采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标:
其中S(m,f)2和N(m,f)2分别表示时间帧为m和频率为f时T-F单元内的语音能量和噪声能量;
5)损失函数的制作
所述的损失函数的制作采用如下的损失函数cost的表达式:
其中L2(w)表示深度堆叠残差网络最后一层权值的二范数,表示深度堆叠残差网络的预测值,yn表示学习目标的真实值;
6)深度堆叠残差网络模型的训练
深度堆叠残差网络的输入分为两部分,输入的一部分为特征集,包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative Spectral Transform-Perceptual Linear Prediction四种特征;输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。
2.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤1)是从TIMIT纯净语音库随机抽取1500段语音,每个语音都来自不同的语音文件,将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合,得到语音信号的数据集。
3.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取梅尔倒谱系数,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,将功率谱转换到梅尔域,再经过对数运算和离散傅里叶变换,得到31维的梅尔倒谱系数。
4.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取Amplitude Modulation Spectrogram,是通过全波整流提取语音信号的包络,对所述的包络进行四分之一抽样,对抽样后得到的语音信号使用汉明窗进行加窗处理,采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换,得到抽样后的语音信号的幅度谱,最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波,得到15维的Amplitude Modulation Spectrogram。
5.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取Gammatone特征,是使用64通道的gammatone滤波器组分解语音信号,对每一个分解出的语音信号,使用100HZ的采样率进行采样,分别得到10毫秒帧偏移的语音信号,将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910345455.X/1.html,转载请声明来源钻瓜专利网。