[发明专利]对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法有效
申请号: | 201310027662.3 | 申请日: | 2013-01-24 |
公开(公告)号: | CN103077706A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 林晓勇;蒋玲慧;张跃;赵静;穆祥女 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 规律性 鼓点 节奏 音乐 进行 特征 提取 表示 方法 | ||
技术领域
本发明涉及一种针对具有规律性鼓点节奏的音乐(尤其是古典音乐)内容的乐纹特征提取及表示方法,属于音乐语音信号特征提取及处理技术领域。
背景技术
目前在CBMR(Content-based Music Retrieve,基于内容的音乐指纹检索),是CBID(content-based audio identification,基于内容的音频标识)或者说AFP(Audio fingerprinting,指纹提取)在搜索技术领域中的一个以音乐信号为主要特征的特殊应用。CBMR包括两大主要内容:音乐指纹(乐纹)提取和乐纹检索中的匹配算法。
在乐纹提取算法方面,到现在为止,国内外已有很多声纹算法的研究成果。广泛采用的方法是从经过短时-傅里叶变换以后的频谱图里面选择一些特征,并对这些特征序列进行建模,建模后的模型提取参数作为该片段的乐纹。
在早期的工作中,主要有使用语音信号处理领域的LPC(Linear Prediction Coefficients,线性预测系数),和使用MFCC(Mel-Frequency Cepstral Coefficients,梅尔倒谱系数)特征来表征音乐信号。二者都是将声音信号变换到倒谱域上,MFCC方法比LPC相比具有较好优势。
由于当前研究的“声纹”检索技术主要是针对泛声音类,比如语音段落、歌曲、音乐歌曲等,因此采用的手段都比较通用及广泛,在鲁棒性上性能较差。而对于全球越来越高的保护知识产权的古典音乐来说,并不具有一般性。古典音乐的旋律优美,鼓点较为规律(比如钢琴、古筝等键击类音乐),如何对此类具有规律性鼓点节奏的音乐进行“声纹”的检索尚未见有解决方案。
发明内容
本发明所要解决的技术问题在于针对以具有规律性鼓点节奏的音乐(古典音乐)为内容的音乐的乐纹参数的快速提取及可视化表示。对保证人耳能敏感到的频点进行保留和处理,对古典音乐的鼓点特征进行提取小节和节拍偏移矩阵,对古典音乐数据的子带能量进行交织做差判决,最终生成“乐纹”特征文件,得到正版音乐唯一的乐纹特征参数表示。
本发明为解决上述技术问题采用以下技术方案:
一种对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法,包括对原始音乐的预处理过程、二维乐纹图像生成过程、音乐节奏起点位置提取过程、乐纹特征文件生成过程;具体步骤如下:
A、预处理过程如下:
步骤A1、采用重叠系数为31/32的平移窗模式对原始音乐文件进行样值序列分帧,得到若干基于时间序列的数据帧;
步骤A2、对于A1得到数据帧进行预加重处理,过滤背景噪声和信道白噪声;
步骤A3、采用滤波器过滤数据中由于录音设备带来的白噪声以及部门短时高频干扰噪声,得到连续的数据帧;
步骤A4,对连续的数据帧进行加载汉宁窗操作,将其转换为时域信号;
步骤A5、将步骤A4得到的时域信号采用FFT变换变成频域离散信号,即频域矩阵{H(i,j)},并将该频域矩阵{H(i,j)}采用Db格式矩阵E(k)=10log10(|H(i,j)|2)换算成相应频点能量矩阵{E(i,j)};其中,H(i,j)为在时间连续i帧坐标下、j频率时短时帧的信号幅度,E(i,j)表示坐标(i,j)对应的频点能量,k代表时间连续帧数,i、j、k均为自然数;
B、二维乐纹图像生成过程如下:
步骤B1、对步骤A5产生的频点能量矩阵{E(i,j)},采用Bark曲线表进行非线性的Bark子带分离;
步骤B2、对各个子带进行人耳感知门限的过滤,保留人类听觉系统能迅速敏感到的能量点;
步骤B3、对应Bark曲线的非线性值,以连续子带的各频点索引作为子带分离的划分边界,进行子带能量求和,得到一个连续矩阵{J(m,n)},其中m∈(2,32),n∈(1,∞);然后对相邻块之间进行交织块处理,采用三值法输出判决结果,得到一个由三值{-1,0,1}组成的矩阵,即乐纹特征值;
步骤B4、对输出的乐纹特征值进行可视化图像展示,即对所述三值{-1,0,1}分别使用RGB色进行绘制;
C、音乐节奏起点位置提取过程,具体包括:
步骤C1、通过对步骤A获取的能量矩阵,进行连续帧能量估计,通过对过零率以及平均帧能量门限的判决,判断静默音和背景噪声,获得起点帧的位置偏移的集合{T(k)},k为范围从1到所获得的全部起点总数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310027662.3/2.html,转载请声明来源钻瓜专利网。