[发明专利]一种基于SOM算法的音频指纹提取方法在审
申请号: | 201410266868.6 | 申请日: | 2014-06-16 |
公开(公告)号: | CN104050259A | 公开(公告)日: | 2014-09-17 |
发明(设计)人: | 余小清;汪文根;熊玮;万旺根;王牧昕 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L25/48 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 som 算法 音频 指纹 提取 方法 | ||
技术领域
本发明涉及基于内容的音频指纹领域,具体涉及一种基于SOM算法的音频指纹提取方法。
背景技术
音频指纹是指基于内容的引用检测技术领域,可以代表一段音乐重要声学特征的基于内容的紧致的数字签名,其主要目的是建立一种有效的机制来比较两个音频数据的感知和听觉质量的相似程度,使人们可以仅仅通过一个没有任何文本标记的音频片段,便可以得到和该音频片段相关的元数据,如音频的名字。这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用指纹作为相应元数据的索引。
音频指纹有着较多好处,具体来说。首先:因为指纹占用的存储空间远小于音频数据本身,这样可以节省很多的计算和内存要求。其次,指纹往往保留了音频数据在听觉感知上的一些不变特性,因此,能够在音频遭受到信号攻击后,数据本身遭到破坏,而感知特性变化较小时,依然可以进行有效比对。最后,保持指纹的数据库往往远小于媒体数据库,这样可以进行高效的搜索。音频指纹现在已经有着很多发展较为明朗的商业应用场景,主要如下:音频识别、内容完整性校验、广播监听等领域。
发明内容
本发明的目的在于针对已有技术存在的不足,提供一种基于SOM算法的音频指纹提取方法,是一种鲁棒的音频指纹提取算法,其巧妙地利用了SOM算法的特性,有效地提高了音频特征的紧致程度,最终实现对音频指纹数据的降维,减少音频指纹的数据量,提高检索效率。本发明的实现步骤包括指纹的构造过程。
如图1所示,具体的指纹构造过程如下:
步骤1 将输入的音频信号转化为单声道:对输入的音频信号做基本的预处理,将音频信号数据归一化,提取标准的PCM音频信号对其做判断,如果此音频信号不是单声道,则将此音频信号数据转换为单声道。
步骤2 将音频信号统一到8kHz采样率:判断转换后的音频信号的采样率是否大于8kHz,如果大于8kHz,则通过FIR滤波器将其降采样到8kHz。
步骤3 重叠分帧并加汉明窗:将归一化后的音频信号进行重叠分帧,每帧帧长为0.256秒,按照相邻帧重叠率为31/32做分帧处理,然后对处理后的音频信号加汉明窗。
步骤4 FFT时频变换:对分帧的音频信号进行时频变换,通过2048位的FFT变换来实现该转换,最终获得2048位的频域系数。
步骤5 获取低1024位特征数据:考虑4kHz以下的能量点作为该指纹的音频特征,将2048位的频域系数中的低1024位系数作为该指纹的音频特征数据。
步骤6 计算特征数据的SOM特征:其步骤为
1) 将获取的低位的1024位特征值 初始化为向量,设所选择的帧数为,故每位均为维,即
同时初始化的权值向量(可依照经验选取):
2) 分别对和按照式(1)和式(2)进行归一化处理得到结果和:
(1)
其中:
归一化权值向量 (2)
其中:
3) 从向量中选取样本及其对应权值向量样本,按照式(3)计算其欧式距离:
(3)
其中:n为迭代次数,表示第n次迭代所对应的权值。
4) 通过式(4)计算欧式距离最小的标准,来获取输出矩阵,从而实现矩阵的降维过程。
(4)
其中,和为满足式(4)的特征向量和权值向量,由此构成新的降维矩阵。
5) 按照式(5)更新参数,通过式(6)更新权值向量。
(5)
(6)
其中,n表示迭代次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410266868.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低盐发酵黑纳豆的制备方法
- 下一篇:一种锂离子正极材料的制备方法