[发明专利]一种基于整合优化器的单声道语音分离方法在审

申请号：	202010945388.8	申请日：	2020-09-10
公开（公告）号：	CN112116921A	公开（公告）日：	2020-12-22
发明（设计）人：	孙林慧;王灿;李平安	申请（专利权）人：	南京邮电大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/30
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	陈栋智
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于整合优化单声道语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于整合优化器的单声道语音分离方法，克服了现有单通道语音分离系统的不足，提出将DNN优化器RAdam和LookAhead优化器相结合来求解语音分离模型消费函数的方法，该方法与传统基于随机梯度下降（SGD）和近来的Adam为梯度下降的语音分离系统相比较，在不增加系统的训练复杂度的情况下，它不仅可以防止语音分离模型的消费函数收敛于局部最优解，还可以提高消费函数的收敛速度，并且在优化器的超参数设置上不像传统的SGD那么要求苛刻；从而使语音分离的分离效果更佳，分离性能得到进一步提升，使分离后语音的可懂度和清晰度得到提高，可以更准确的分离混合在一起的语音信号。

技术领域

本发明涉及一种语音分离方法，具体的说是一种基于整合优化器的单声道语音分离方法，属于语音分离技术领域。

背景技术

语音作为物种之间交流的方式之一，随着语音信号处理这个热门领域的不断发展，人们对于高品质的语音的追求不断提升。然而我们所处的世界之中，有存在这各种各样的干扰，这样的语音会使人烦躁。良好的语音质量对人们的生活体验是意义非凡的。随着人工智能的飞速发展，人机交互也成为一个不可避免的部分，清晰度高和可懂度高的语音在这个交互过程中就显得尤为重要。正因如此，语音分离的研究也就显得的别重要。现实生活中有着各种各样不同的噪音，人们感兴趣的声音往往都是纯净的声音，然而现实中很难有完全纯净的声音，人们需要的声音其中都或多或少夹杂着噪音，降低了语音可懂度和信噪比。如何提高可懂度同时降低信噪比变成了一个非常关键的问题。语音分离就是从各种声音混合环境中，将目标说话人的语音分离出来，让其尽可能少失真少干扰，把目标说话人的语音质量提高，因此语音分离具有意义重大的研究价值和实际使用价值。

随着近几年人工智能和深度学习的崛起，深度神经网络(Deep Neural Network，DNN)逐渐的运用在语音分离的研究上。基于深度神经网络的语音分离一般包含了这么几个过程：1.语音信息的特征提取、2.DNN模型的训练、3.语音分离。其中语音信息的特征提取和DNN模型的训练尤为重要，提取好的特征的能够训练出比较理想的DNN模型，而优秀的DNN模型又可以充分的利用特征和训练目标，建立两者之间更密切的关系。用于语音分离的特征一般是：短时傅里叶变换后得到的幅度谱、对数功率谱(log-power spectral，LPS)、梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、高分辨率耳蜗图(Multiresolution Cochlea-gram，MRCG)等很多优秀的语音分离特征，而短时傅里叶变换后的幅度谱是我们常用于语音分离的特征，因为它的提取过程相对于其他的特征相对来说比较容易，而且训练模型的效果也很好，因此被广泛的使用。用于语音分离模型的训练目标通常有两种：1.IRM(Ideal Ratio Masking)一种软阈值的判断，可以是语音能量之比，也可以是功率之比还可以语音的幅度之比。其中IRM的幅度比是最常用的。2.TMS(TargetMagnitude Spectrum)，直接通过特征去估计目标的幅度谱。这种训练目标也常用于语音分离中，但是效果相比较要差一些。用于语音分离的网络模型常有这几种网络：1.深度神经网络(DNN)、2.卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。语音分离一般采用深度神经网络作为网络模型。在训练过程中，我们一般采用线性回归模型作为网络的消费函数的模型，采用最小均方误差(Minimum Mean Square Error，MMSE)作为基准。而在训练的反响传播阶段，我们通常采用随机梯度下降(Stochastic Grade Descent，SGD)作为求解消费函数最优值的下降算法。在一次次的往复迭代当中，每次都会通过调节神经网络每一层的神经元的权重和偏置来使消费函数的loss最小。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010945388.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于整合优化器的单声道语音分离方法在审

专利文献下载