[发明专利]一种基于U型网络和音频指纹的音乐与人声分离方法有效
申请号: | 202110403350.2 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113129920B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 汤步洲;刘凯隆;刘超 | 申请(专利权)人: | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L21/0308 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 于标 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 音频 指纹 音乐 人声 分离 方法 | ||
本发明涉及一种基于U型网络和音频指纹的音乐与人声分离方法:当输入混合音频时,首先经过已经训练好的音乐分离模型,得到分离的伴奏音频;然后采用指纹提取算法,提取出伴奏音频中的指纹;随后将这些指纹送入到音频指纹数据库中,检索出对应匹配的歌曲以及时间点offset;随后将检索出的歌曲进行音量的调整;在匹配歌曲时间点offset前后一段时间内的采样点进行匹配,得到得到一段音频波形;再将分离音频与这段波形的音量进行精确匹配;最后混合音频减去这段波形最后得到较为纯净的音频。该方法设计一种基于U型网络架构的音乐分离模型,以及在该模型后加入音频指纹检索进行再分离,使分离效果差距明显缩小,得到纯净人声。
技术领域
本发明属于语音分离技术领域,具体涉及一种基于U型网络和音频指纹的音乐与人声分离方法。
背景技术
在众多语音信号处理技术中,比较有代表性的技术有语音识别、语音合成以及语音分离,其中,语音分离是语音领域一个重要的研究方向。语音分离的任务是将目标语音与背景噪声分开。单通道语音分离近年来成为语音分离领域研究的热点。语音分离的传统方法有减谱法、自适应滤波器法以及维纳滤波器法等,这些方法比较简单,但是这些方法假设背景噪音是平稳的,如果不满足这个假设条件,那么往往无法得到理想的效果,尤其是当信噪比的值处于较低水平时,这些传统方法的表现较差。上述方法均为传统的信号处理的算法,除此之外还有一些其他的方法,比较有代表性的是基于模型的方法,这种方法是构建声源语音和带噪声语音的模型,并通过这个模型对带噪的语音信号进行分离,这类方法有非负矩阵分解、高斯混合模型、支持向量机等,在低信噪比的情况下可以得到效果比较好的分离信号,但是这种方法取决于已经构建好的各种声源的语音和其他噪声的关系模型,如果这个训练好的模型与需要分离带噪声的语音中的噪声和声源不匹配时,其性能往往会降低。其次,音频信号往往是一种非平稳的随时间变化的信号,具有非常明显的时间和空间结构,同时存在着很多非线性关系,但是这种层数比较浅的模型,由于模型内部的隐层数等条件的限制,很难在训练之中发现一些非线性的复杂关系。
随着深度学习的发展,深度神经网络被广泛应用于语音领域,例如语音合成、语音识别和语音增强等,并且取得了一些突破性的进展。深度学习的方法也可以在语音分离方面有所应用,而语音分离的任务在许多领域具有重大的用途,所以基于深度学习的语音分离是具有很大的研究价值的,同时也极具挑战。
音乐人声分离是语音分离中的一种,其研究将歌曲中的背景音乐各个部分以及人声进行分离。但是在现实情况下,由于一些条件的限制,单纯通过语音分离算法获得的模型不会获得非常纯净的语音。
发明内容
本发明针对上述问题,提出了一种基于U型网络和音频指纹的音乐与人声分离方法,该方法考虑到背景音乐可以看作是加性噪声,可以通过音频检索技术找到背景音乐来自哪一首音乐的哪部分片段,进行适当调整,并将混合语音的信号减去调整后的检索出来的音乐片段,便有可能得到较为纯净的人声。同时,针对当前主流的音频检索是采用音频指纹技术,该方法对音频检索技术进行研究改进,并用于辅助语音分离,从而获得更好的音乐与人声分离效果。
本发明提供的一种基于U型网络和音频指纹的音乐与人声分离方法,包括如下步骤:
步骤1:将混合音频输入已经训练好的音乐人声分离模型,得到与人声分离的伴奏音频;
步骤2:采用指纹提取算法提取出步骤1得到的伴奏音频中的音频指纹;
步骤3:将步骤2得到的音频指纹送入音频指纹数据库中,检索出与所述指纹匹配的歌曲以及时间点offset;
步骤4:将步骤3检索得到的匹配歌曲进行音量的调整,具体是计算步骤1得到的伴奏音频的平均音量,然后将检索得到的匹配歌曲的音量调至平均音量;
步骤5:对匹配歌曲时间点offset前后一段时间内的音频进行采样,得到一段音频波形;
步骤6:将所述音频波形与步骤1得到的伴奏音频的波形进行比较,进一步调整所述音频波形;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403350.2/2.html,转载请声明来源钻瓜专利网。