[发明专利]一种音符起始点检测方法及系统有效
申请号: | 202011292733.9 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112509601B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 王军;马连航;文亮;阮林萍;汪万涛;赵罡 | 申请(专利权)人: | 中电海康集团有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L25/03 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 311100 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音符 起始 检测 方法 系统 | ||
1.一种音符起始点检测方法,应用于基于内容的音乐特征识别,其特征在于,所述音符起始点检测方法,包括:
获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图;
依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;
对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;
将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点;
其中,所述均值向量和标准差向量,计算过程包括:
令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量;
若记所有特征数据为D,则特征数据的条数为|D|,第j条特征数据记为其中表示第j条特征数据中的第i帧,且p、q为预设帧数,则特征数据的均值向量μ∈RM中,每个分量μk,k=1,2,...,M的计算方式如下:
其中,表示第j条特征数据中第i帧的第k个频率区间对应的能量数据;
则特征数据的标准差向量σ∈RM中,每个分量σk,k=1,2,...,M的计算方式如下:
其中,表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
2.如权利要求1所述的音符起始点检测方法,其特征在于,对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,包括:
1)令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量,且多条特征数据的均值向量为μ∈RM、标准差向量为σ∈RM;
2)遍历均值向量μ∈RM,找到能量极大值序列μmax,所述能量极大值序列μmax的选取方式为:遍历均值向量μ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入μmax中,否则不加入μmax中;
3)遍历能量极大值序列μmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列μmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从能量极大值序列μmax中删除;
4)重复执行步骤2)和步骤3),直至能量极大值序列μmax中不存在极小值点;
5)使用插值拟合方法将删除极小值点后剩余的能量极大值序列μmax中的点进行连接,连接所得曲线即为平滑后的均值向量μ′;
6)遍历标准差向量σ∈RM,找到能量极大值序列σmax,所述能量极大值序列σmax的选取方式为:遍历标准差向量σ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入σmax中,否则不加入σmax中;
7)遍历能量极大值序列σmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列σmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从序列σmax中删除;
8)重复执行步骤6)和步骤7),直至能量极大值序列σmax中不存在极小值点;
9)使用插值拟合方法将删除极小值点后剩余的能量极大值序列σmax中的点进行连接,连接所得曲线即为平滑后的标准差向量σ′。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电海康集团有限公司,未经中电海康集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011292733.9/1.html,转载请声明来源钻瓜专利网。