[发明专利]节拍检测模型的训练方法、节拍检测方法及装置有效
申请号: | 202110470092.X | 申请日: | 2021-04-28 |
公开(公告)号: | CN113223485B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 崔凡;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G10H1/40;G10L25/24;G10L25/30;G10L25/51 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王艳茹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节拍 检测 模型 训练 方法 装置 | ||
1.一种节拍检测模型的训练方法,其特征在于,包括:
获取训练音频数据集,其中,所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;
获取所述音频数据的梅尔谱特征;
获取所述音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率;
将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率;
基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数;
通过所述目标损失函数调整所述节拍检测模型的参数,对所述节拍检测模型进行训练;
其中,所述将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据是节拍点概率,包括:
将所述音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接;
将拼接结果输入所述节拍检测模型,得到所述音频数据中每帧数据的节拍点概率。
2.如权利要求1所述的训练方法,其特征在于,所述音符起始点概率是利用频域差分方法对所述音频数据执行音频节奏检测得到的。
3.如权利要求2所述的训练方法,其特征在于,所述利用频域差分方法对所述音频数据执行音频节奏检测,包括:
基于所述音频数据的梅尔谱特征对所述音频数据中相邻两帧数据进行归一化处理;
针对所述音频数据中每帧数据,对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算,得到当前帧数据所有频率点上的差分运算后的特征,其中,归一化处理后的第一帧数据的差分运算后的特征为预先设定的;
获取差分运算后的每帧数据所有频率点上的特征的平均值;
将所述平均值输入双曲正切函数,得到所述音频数据中每帧数据的音符起始点概率。
4.一种节拍检测方法,其特征在于,包括:
获取待检测音频数据;
获取所述待检测音频数据的梅尔谱特征;
获取所述待检测音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述待检测音频数据中每帧数据是音符起始点的概率;
将所述音符起始点概率与所述梅尔谱特征输入到训练好的节拍检测模型中,得到估计的所述待检测音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述待检测音频数据中每帧数据是节拍点的概率;
其中,所述节拍检测模型是通过如权利要求1至3中任一项所述的节拍检测模型的训练方法训练得到的。
5.一种节拍检测模型的训练装置,其特征在于,包括:
第一获取单元,用于获取训练音频数据集,其中,所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;
第二获取单元,用于获取所述音频数据的梅尔谱特征;
第三获取单元,用于获取所述音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率;
估计单元,用于将所述音频起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率;
确定单元,用于基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数;
训练单元,用于通过所述目标损失函数调整所述节拍检测模型的参数,对所述节拍检测模型进行训练;
其中,所述估计单元,还用于将所述音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接;将拼接结果输入所述节拍检测模型,得到所述音频数据中每帧数据的节拍点概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110470092.X/1.html,转载请声明来源钻瓜专利网。