[发明专利]获得歌声检测模型在审
申请号: | 201910694160.3 | 申请日: | 2019-07-30 |
公开(公告)号: | CN112309428A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 侯元波;栾剑;宋謌平 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L25/48 | 分类号: | G10L25/48;G10L25/30;G10L25/03 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 张立达 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获得 歌声 检测 模型 | ||
1.一种用于获得歌声检测模型的方法,包括:
将多个话音片段和多个器乐片段合成为多个音频片段;
利用所述多个音频片段来训练话音检测模型;
将所述话音检测模型的至少一部分迁移到歌声检测模型;以及
利用一组多音音乐片段来训练所述歌声检测模型。
2.如权利要求1所述的方法,其中,所述话音检测模型执行用于检测音频片段中的话音的源任务。
3.如权利要求2所述的方法,其中,所述多个音频片段中的每一个包括指示是否存在话音的多个帧级别标记。
4.如权利要求1所述的方法,其中,所述话音检测模型是基于包括一个或多个卷积层的卷积神经网络(CNN)的。
5.如权利要求4所述的方法,其中,所述迁移包括:将所述一个或多个卷积层中的至少一个卷积层迁移到所述歌声检测模型。
6.如权利要求5所述的方法,其中,所述至少一个卷积层位于所述一个或多个卷积层中的底层。
7.如权利要求4所述的方法,其中,所述一个或多个卷积层中的每一个连接有相应的池化层。
8.如权利要求1所述的方法,其中,所述歌声检测模型执行用于检测多音音乐片段中的歌声的目标任务。
9.如权利要求8所述的方法,其中,所述一组多音音乐片段中的每一个包括指示是否存在歌声的多个帧级别标记。
10.如权利要求1所述的方法,其中,所述歌声检测模型执行用于检测多音音乐片段中的歌声、伴奏和静默的目标任务。
11.如权利要求10所述的方法,其中,所述一组多音音乐片段中的每一个包括指示是否存在歌声、伴奏和/或静默的多个帧级别标记。
12.如权利要求1所述的方法,其中,所述歌声检测模型是基于卷积循环神经网络(CRNN)的,所述CRNN包括卷积神经网络(CNN)和循环神经网络(RNN)。
13.如权利要求12所述的方法,其中,所述CNN包括从所述话音检测模型迁移来的至少一个卷积层。
14.如权利要求13所述的方法,其中,所述训练所述歌声检测模型包括:固定所述至少一个卷积层的参数。
15.如权利要求13所述的方法,其中,所述训练所述歌声检测模型包括:利用所述一组多音音乐片段来调试所述至少一个卷积层的参数。
16.如权利要求1所述的方法,其中,所述话音检测模型和所述歌声检测模型的输入采用梅尔谱的形式。
17.一种用于获得歌声检测模型的装置,包括:
音频片段合成模块,用于将多个话音片段和多个器乐片段合成为多个音频片段;
话音检测模型训练模块,用于利用所述多个音频片段来训练话音检测模型;
迁移模块,用于将所述话音检测模型的至少一部分迁移到歌声检测模型;以及
歌声检测模型训练模块,用于利用一组多音音乐片段来训练所述歌声检测模型。
18.如权利要求17所述的装置,其中,所述话音检测模型是基于包括一个或多个卷积层的卷积神经网络(CNN)的,并且其中,所述迁移包括:将所述一个或多个卷积层中的至少一个卷积层迁移到所述歌声检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910694160.3/1.html,转载请声明来源钻瓜专利网。