[发明专利]音频节拍检测方法、装置及存储介质有效
申请号: | 201811278954.3 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109256147B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王征韬 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 节拍 检测 方法 装置 存储 介质 | ||
1.一种音频节拍检测方法,其特征在于,所述方法包括:
获取训练样本;
对所述训练样本进行特征提取,以提取出所述训练样本的音频特征;
将所述训练样本的音频特征输入参考模型中进行学习训练,以得到训练后的所述参考模型的优化参数;
根据所述优化参数生成检测模型;
按照预设时间长度从待测音频中截取多个音频片段;
将所述多个音频片段分别输入所述检测模型中进行音频节拍检测,以获得所述多个音频片段中每一音频片段的预测结果,其中,所述每一音频片段的预测结果包括多个BPM值以及每一所述BPM值对应的置信度;
对所述预测结果进行多段投票,以获取所述待测音频的BPM值以及所述BPM值对应的置信度。
2.如权利要求1所述的音频节拍检测方法,其特征在于,若所述检测模型包括单模型,则所述对所述预测结果进行多段投票,以获取所述待测音频的BPM值以及所述BPM值对应的置信度,包括:
从所述多个音频片段的每一音频片段的预测结果中选取置信度排名达到预设名次的BPM值以及所述置信度排名达到预设名次的BPM值对应的置信度;
根据所述置信度排名达到预设名次的BPM值以及所述置信度排名达到预设名次的BPM值对应的置信度,确定所述待测音频的BPM值以及所述BPM值对应的置信度。
3.如权利要求1所述的音频节拍检测方法,其特征在于,若所述检测模型包括多模型,则所述对所述预测结果进行多段投票,以获取所述待测音频的BPM值以及所述BPM值对应的置信度,包括:
从所述多个音频片段的每一音频片段的预测结果中选取所述多模型中每一模型对应的数据集,其中,所述每一模型对应的数据集包括同一模型输出的多个BPM值以及每一所述BPM值对应的置信度;
分别对所述多模型中每一模型对应的数据集进行投票,以从所述多模型中每一模型对应的数据集中选取置信度最高的数据集;
根据所述置信度最高的数据集,确定所述待测音频的BPM值以及所述BPM值对应的置信度。
4.如权利要求1所述的音频节拍检测方法,其特征在于,所述对所述训练样本进行特征提取,以提取出所述训练样本的音频特征,包括:
按照预设步长以及预设帧长对所述训练样本进行分帧处理,以得到多帧信号;
对所述多帧信号进行信号变换,以得到与所述多帧信号对应的多个基本信号;
从所述多个基本信号中导出与所述多个基本信号对应的多个导出信号;
按照时间序列将所述多个基本信号与所述多个导出信号进行向量堆叠,以得到所述训练样本的音频特征。
5.如权利要求4所述的音频节拍检测方法,其特征在于,所述对所述多帧信号进行信号变换,以得到与所述多帧信号对应的多个基本信号,包括:
对所述多帧信号中的每一帧信号进行傅里叶变换,并对所述傅里叶变换的实部对应的信号频率进行梅尔尺度变换,以得到每一帧信号的梅尔频谱;
将所述每一帧信号的梅尔频谱输入对数函数中进行计算,以得到所述多帧信号中每一帧信号对应的基本信号;
所述从所述多个基本信号中导出与所述多个基本信号对应的多个导出信号,包括:
沿每一所述基本信号的频率方向分别进行中值滤波,以获取每一所述基本信号对应的中值滤波结果;
将每一所述基本信号减去与其对应的所述中值滤波结果,以得到每一所述基本信号对应的中间值;
根据所述中间值,求取每一所述基本信号对应的导出信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811278954.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音频检测方法、装置及存储介质
- 下一篇:一种语音质量评估方法和装置