[发明专利]一种深度堆叠残差网络的语音分离方法有效

申请号：	201910345455.X	申请日：	2019-04-26
公开（公告）号：	CN110120227B	公开（公告）日：	2021-03-19
发明（设计）人：	张涛;朱诚诚	申请（专利权）人：	天津大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/24;G10L25/27;G10L21/0208
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	杜文茹
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种深度堆叠残差网络的语音分离方法，包括：语音信号数据集的制作；语音信号的特征提取，包括分别提取语音信号每一帧的：梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱；深度堆叠残差网络的搭建；学习标签的制作；损失函数的制作；深度堆叠残差网络模型的训练。本发明分离出来的语音可以得到更高的语音质量和可懂度，尤其在低信噪比的声学的环境下。本发明在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型，而且模型的泛化能力特别强，对于未匹配的噪声环境也能有很好的性能表现。
搜索关键词：	一种深度堆叠网络语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种深度堆叠残差网络的语音分离方法，其特征在于，包括如下步骤：1)语音信号数据集的制作；2)语音信号的特征提取，包括分别提取语音信号每一帧的：梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱；3)：深度堆叠残差网络的搭建深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成，其中，所述的卷积通道是由7个卷积残差模块(a)组成，所述的第一全连接通道是由3个第一全连接残差模块(b)组成，所述第二全连接通道是由3个第二全连接残差模块(c)组成，所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道；4)学习标签的制作采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标：其中S(m,f)²和N(m,f)²分别表示时间帧为m和频率为f时T‑F单元内的语音能量和噪声能量；5)损失函数的制作所述的损失函数的制作采用如下的损失函数cost的表达式：其中L2(w)表示深度堆叠残差网络最后一层权值的二范数，表示深度堆叠残差网络的预测值，y_n表示学习目标的真实值；6)深度堆叠残差网络模型的训练深度堆叠残差网络的输入分为两部分，输入的一部分为特征集，包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative Spectral Transform‑Perceptual Linear Prediction四种特征；输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910345455.X/，转载请声明来源钻瓜专利网。

上一篇：一种专网集群终端语音尾噪消除方法和设备
下一篇：基于声谱图及深度残差网络的音频通用隐写分析方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种深度堆叠残差网络的语音分离方法有效

专利文献下载