[发明专利]一种语音分离方法及装置有效

申请号：	201911212569.3	申请日：	2019-12-02
公开（公告）号：	CN111128211B	公开（公告）日：	2022-04-12
发明（设计）人：	刘广灿	申请（专利权）人：	云知声智能科技股份有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0272
代理公司：	北京冠和权律师事务所 11399	代理人：	张楠楠
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音分离方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音分离方法及装置，包括：获取混合语音信号；对混合语音信号进行预处理，提取出混合语音信号的幅度谱x_t以训练分离网络；利用分离网络生成训练数据；利用训练数据训练优化网络Q；利用分离网络和训练好的优化网络Q对分离网络进行再次训练。通过训练优化网络来对分离网络二次训练进而优化分离网络，可以使分离网络的语音分离结果更加精确，进而提高了语音分离的效率，同时使分离网络可以更加的完善以针对不同的混合语音信号进行语音分离，解决了现有技术中由于分离模型过于单一，导致部分语音无法有效的进行分离，从而无法实现完整的语音分离的问题。

技术领域

本发明涉及信号处理技术领域，尤其涉及一种语音分离方法及装置。

背景技术

目前，在人们的通信交流或者留言中由于身处的环境不同，在通信的过程中难免会掺杂着噪声，基于上述问题如今开发了语音分离技术，语音分离又称鸡尾酒会问题，目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成：首先将包括混合语音和纯净语音的数据划分为训练集、验证集和测试集，然后使用训练集训练语音分离模型，使用验证集来确定分离模型，最后在测试集上测试分离效果。目前基于深度学习的语音分离方法，一般使用均方误差作为分离模型的训练指标，使用声源失真比等作为分离效果的评价测试指标，但由于分离模型过于单一而导致部分语音无法有效的进行分离，从而无法实现完整的语音分离。

发明内容

针对上述所显示出来的问题，本方法利用分离网络来生成训练数据进而训练一个优化网络，使用优化网络和分离网络进行二次训练来提升语音分离效果。

一种语音分离方法，包括以下步骤：

获取混合语音信号；

对所述混合语音信号进行预处理，提取出所述混合语音信号的幅度谱x_t以训练分离网络；

利用所述分离网络生成训练数据；

利用所述训练数据训练优化网络Q；

利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。

优选的，所述对所述混合语音信号进行预处理，提取出所述混合语音信号的幅度谱x_t以训练分离网络，包括：

对所述混合语音信号进行预设时长傅里叶变换，得到所述幅度谱x_t；

将所述幅度谱x_t进行归一化处理后传输给神经网络；

定义S()为分离网络，输入所述幅度谱x_t，通过所述神经网络对所述幅度谱x_t提取语音特征，输出预测的掩蔽值，进而得到所述掩蔽值的幅度谱S(x_t)；