[发明专利]一种深度堆叠残差网络的语音分离方法有效
申请号: | 201910345455.X | 申请日: | 2019-04-26 |
公开(公告)号: | CN110120227B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 张涛;朱诚诚 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/24;G10L25/27;G10L21/0208 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种深度堆叠残差网络的语音分离方法,包括:语音信号数据集的制作;语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱;深度堆叠残差网络的搭建;学习标签的制作;损失函数的制作;深度堆叠残差网络模型的训练。本发明分离出来的语音可以得到更高的语音质量和可懂度,尤其在低信噪比的声学的环境下。本发明在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型,而且模型的泛化能力特别强,对于未匹配的噪声环境也能有很好的性能表现。 | ||
搜索关键词: | 一种 深度 堆叠 网络 语音 分离 方法 | ||
【主权项】:
1.一种深度堆叠残差网络的语音分离方法,其特征在于,包括如下步骤:1)语音信号数据集的制作;2)语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱;3):深度堆叠残差网络的搭建深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块(a)组成,所述的第一全连接通道是由3个第一全连接残差模块(b)组成,所述第二全连接通道是由3个第二全连接残差模块(c)组成,所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道;4)学习标签的制作采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标:其中S(m,f)2和N(m,f)2分别表示时间帧为m和频率为f时T‑F单元内的语音能量和噪声能量;5)损失函数的制作所述的损失函数的制作采用如下的损失函数cost的表达式:其中L2(w)表示深度堆叠残差网络最后一层权值的二范数,表示深度堆叠残差网络的预测值,yn表示学习目标的真实值;6)深度堆叠残差网络模型的训练深度堆叠残差网络的输入分为两部分,输入的一部分为特征集,包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative Spectral Transform‑Perceptual Linear Prediction四种特征;输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910345455.X/,转载请声明来源钻瓜专利网。