[发明专利]获得歌声检测模型在审
申请号: | 201910694160.3 | 申请日: | 2019-07-30 |
公开(公告)号: | CN112309428A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 侯元波;栾剑;宋謌平 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L25/48 | 分类号: | G10L25/48;G10L25/30;G10L25/03 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 张立达 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获得 歌声 检测 模型 | ||
本公开提供了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。
背景技术
歌声(singing voice)检测技术可以用于确定音乐片段(clip)中的歌声的端点,例如,确定在多音(polyphonic)音乐片段中的歌声区域和非歌声区域等。在本文中,多音音乐片段可以指包含混合在一起的歌声以及伴奏的音频片段。对于音乐信息提取(MusicInformation Retrieval:MIR)任务而言,在多音音乐片段中对歌声区域的成功检测是非常重要的。典型的MIR任务可以包括例如音乐摘要、音乐提取、音乐标注、音乐类型分类、歌声分离等。
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
本公开的实施例提出了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1示出了根据实施例的歌声检测的示例性应用。
图2示出了根据实施例的歌声检测的示例性应用。
图3示出了根据实施例的基于迁移学习来获得歌声检测模型的示例性过程。
图4示出了根据实施例的话音检测模型的示例性实现方式。
图5示出了根据实施例的歌声检测模型的示例性实现方式。
图6示出了根据实施例的用于获得歌声检测模型的示例性方法的流程图。
图7示出了根据实施例的用于获得歌声检测模型的示例性装置。
图8示出了根据实施例的用于获得歌声检测模型的示例性装置。
具体实施方式
现在将参考多种示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
目前,深度学习技术已被应用于歌声检测。可以将深度神经网络用于估计理想二进制声谱遮罩(Ideal Binary Spectrogram Mask),其表示歌声比伴奏更为显著的声谱段。可以基于卷积神经网络(CNN)构建基于时间和音色特征的模型,以用于提高MIR的性能。可以采用循环神经网络(RNN)来预测与原始信号相乘的软遮罩以获得期望的隔离区域。上述这些系统的训练需要大规模的经过准确标记的多音音乐片段数据集,在该数据集中以帧级别标注了歌声、伴奏等的端点。然而,这样的大规模标记数据集通常是不可获得的,并且人为标记也是费时且昂贵的。因此,只有小规模的经过标记的多音音乐片段数据集可以被实际用于训练这些系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910694160.3/2.html,转载请声明来源钻瓜专利网。