[发明专利]一种基于SOM算法的音频指纹提取方法在审

申请号：	201410266868.6	申请日：	2014-06-16
公开（公告）号：	CN104050259A	公开（公告）日：	2014-09-17
发明（设计）人：	余小清;汪文根;熊玮;万旺根;王牧昕	申请（专利权）人：	上海大学
主分类号：	G06F17/30	分类号：	G06F17/30;G10L25/48
代理公司：	上海上大专利事务所(普通合伙) 31205	代理人：	何文欣
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种使用于音乐检索系统的音频指纹提取方法。该发明属于基于内容的音乐检索技术领域，具体为一种基于SOM（自组织特征映射）算法的音频指纹提取方法。本发明主要完成在音频指纹系统中实现音频指纹的提取功能，本方法首先将时域音频信号转化为频域信号，然后提取频域信号的能量信息，最后获得相关音频特征。为了减少音频特征的数据量，减少存储音频所需的存储空间，提高数据的检索效率，采用了SOM算法实现对音频特征数据的降维处理。本发明能够有效的在移动嵌入式设备上运行实现，具有执行速度快、指纹数据量较少、音频检索速度快等特点。
搜索关键词：	一种基于 som 算法音频指纹提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于SOM算法的音频指纹提取方法，其特征在于具体步骤如下：步骤1 将输入的音频信号转化为单声道：对输入的音频信号做基本的预处理，将音频信号数据归一化，提取标准的PCM音频信号对其做判断，如果此音频信号不是单声道，则将此音频信号数据转换为单声道；步骤2 将音频信号统一到8kHz采样率：判断转换后的音频信号的采样率是否大于8kHz，如果大于8kHz，则通过FIR滤波器将其降采样到8kHz；步骤3 重叠分帧并加汉明窗：将归一化后的音频信号进行重叠分帧，每帧帧长为0.256秒，按照相邻帧重叠率为31/32做分帧处理，然后对处理后的音频信号加汉明窗；步骤4 FFT时频变换：对分帧的音频信号进行时频变换，通过2048位的FFT变换来实现该转换，最终获得2048位的频域系数；步骤5 获取低1024位特征数据：考虑4kHz以下的能量点作为该指纹的音频特征，将2048位的频域系数中的低1024位系数作为该指纹的音频特征数据；步骤6 计算特征数据的SOM特征：其步骤为将获取的低位的1024位特征值初始化为向量，设所选择的帧数为，故每位均为维，即同时初始化的权值向量（可依照经验选取）：分别对和按照式（1）和式（2）进行归一化处理得到结果和：（1）其中：归一化权值向量（2）其中：从向量中选取样本及其对应权值向量样本，按照式（3）计算其欧式距离：（3）其中：n为迭代次数，表示第n次迭代所对应的权值；通过式（4）计算欧式距离最小的标准，来获取输出矩阵，从而实现矩阵的降维过程；（4）其中，和为满足式(4)的特征向量和权值向量，由此构成新的降维矩阵；按照式（5）更新参数，通过式（6）更新权值向量；（5）（6）其中，n表示迭代次数；按照式（7）对更新后的权值向量重新进行归一化处理；（7）其中判断输出矩阵的大小是否等于32个向量，如果等于则结束迭代，如果大于则回到3）中继续迭代；步骤7 相邻帧比对，获得二进制指纹：由步骤6中的7），当输出矩阵的大小等于32个向量，将最终获得的32个特征值设为，依据公式（8）计算相邻帧之间指纹的符号差异，作为最终的存储数据，就的到了二进制指纹；（8）其中M为子帧内数据的个数，这里为32。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410266868.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于SOM算法的音频指纹提取方法在审

专利文献下载