[发明专利]一种深度堆叠残差网络的语音分离方法有效
申请号: | 201910345455.X | 申请日: | 2019-04-26 |
公开(公告)号: | CN110120227B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 张涛;朱诚诚 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/24;G10L25/27;G10L21/0208 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 堆叠 网络 语音 分离 方法 | ||
一种深度堆叠残差网络的语音分离方法,包括:语音信号数据集的制作;语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱;深度堆叠残差网络的搭建;学习标签的制作;损失函数的制作;深度堆叠残差网络模型的训练。本发明分离出来的语音可以得到更高的语音质量和可懂度,尤其在低信噪比的声学的环境下。本发明在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型,而且模型的泛化能力特别强,对于未匹配的噪声环境也能有很好的性能表现。
技术领域
本发明涉及一种语音分离方法。特别是涉及一种深度堆叠残差网络的语音分离方法。
背景技术
在现实生活中,人们所听到的声音几乎都是多种声音的组合体。语音信号往往会被各种噪声信号所干扰。语音分离技术旨在从被干扰的信号中分离出人们感兴趣的目标信号,从而提升语音的质量和可懂度。人耳听觉系统可以自动识别目标信号,即使在鸡尾酒会这种嘈杂的环境下,人耳也能轻易地识别出其中一个人的说话内容。所以语音分离通常被称为“鸡尾酒会问题”,这个术语是Cherry于1953年在他的论文中提出来的。采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。根据干扰的不同,语音分离任务可以分为三类:当干扰为噪声信号时,可以称为“语音增强”(Speech Enhancement);当干扰为其他说话人时,可以称为“多说话人分离”(Speaker Separation);当干扰为目标说话人自己声音的反射波时,可以称为“解混响”(De-reverberation),由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰,不做语音分离、直接进行识别的话,会影响到识别的准确率。因此在语音识别的前端加上语音分离技术,把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性,这从而也成为现代语音识别系统中不可或缺的一环.
迄今为止在针对语音分离领域已经有许多方法产生。在早期该领域专家提出了谱减法(Spectral Subtraction)、维纳滤波法(Wiener Filtering)和最小均方误差(MinimumMean Squared Error,MMSE)等。对于谱减法,谱减法是处理宽带噪声的最通用技术。它利用语音信号的短时平稳特性,从带噪语音的短时谱值中减去噪声的短时谱,从而得到纯净语音的频谱达到语音增强得目的。谱减法包括两种方法:幅度谱减法和功率谱减法。幅度谱减法就是在频域中从带噪语音的幅度谱上减去噪声的幅度谱作为语音信号的幅度谱;功率谱减法通过从带噪语音的功率谱中减去噪声的功率谱,得到纯净语音的功率谱估计,通过开方运算得到幅度谱。维纳滤波法是一种最小均方误差意义下的最优滤波器,维纳滤波法要求输入过程广义平稳且统计特性已知。早期提出的方法对环境都有特殊要求,要求噪声平稳的环境,否则对分离效果影响很大,由其在低信噪比的情况下效果特别差。但是在真实的环境中,大部分环境都是非平稳噪声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910345455.X/2.html,转载请声明来源钻瓜专利网。