[发明专利]混合声音信号的分离方法、装置、电子设备和可读介质有效

申请号：	201811564607.7	申请日：	2018-12-20
公开（公告）号：	CN109801644B	公开（公告）日：	2021-03-09
发明（设计）人：	张宁;李岩;姜涛	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/30;G10L25/48
代理公司：	北京成创同维知识产权代理有限公司 11449	代理人：	蔡纯;张靖琳
地址：	100084 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	混合声音信号分离方法装置电子设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请是关于一种混合声音信号的分离方法、装置、电子设备和可读介质。所述方法包括：从混合声音信号中提取混合声音特征数据；将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，第一隐变量表征人声特征，第二隐变量表征伴奏声音特征；将第一隐变量和第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据；以及基于人声特征数据和伴奏声音特征数据得到人声和伴奏。该方法得到的人声和伴奏声音的信噪比较低。

技术领域

本申请属于计算机软件应用领域，尤其是一种混合声音信号的分离方法、装置、电子设备和可读介质。

背景技术

一般的流行音乐由人声和伴奏叠加混合而成。将混合好的音乐分离得到人声和伴奏(声伴分离)是一项有挑战性的工作。声伴分离对于音乐编辑，音乐检索有重要作用。声伴分离模型性能的改进能够极大地提高后续处理流程的效果。

当前主流的声伴分离模型是端到端的确定性模型，计算每个声源在时频图中的mask(掩码)，再用mask乘以混合声音的时频图得到分离声源的时频特征，进而得到分离声源的时域表示。虽然这种端到端的模型分离得到的声源信号有较高的信噪比，但是分离声源信号几乎不可能是干净的，或多或少都会掺杂有残留的其他声源信号。这些残留的干扰虽然微弱，但对后续的歌词切分，歌曲评价等步骤有非常严重的影响。目前业界专家也在持续地改进现有技术方案以及寻找新的技术方案，以逐步改善混合音中的人声和伴奏的分离效果。

发明内容

为克服相关技术中存在的问题，本申请公开一种混合声音信号的分离方法、装置、电子设备和可读介质，以解决现有技术中存在的问题。

根据本申请实施例的第一方面，提供一种混合声音信号的分离方法，包括：

从混合声音信号中提取混合声音特征数据；

将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，所述第一隐变量表征人声特征，所述第二隐变量表征伴奏声音特征；

将所述第一隐变量和所述第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据；以及

基于所述人声特征数据和所述伴奏声音特征数据得到人声和伴奏。

可选地，还包括：

构建人声训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将人声训练样本输入到当前的人声编码器中，得到输出的第三隐变量，所述第三隐变量表征所述人声特征；

将所述第三隐变量输入到当前的人声解码器，得到对应的人声验证样本；