[发明专利]基于交叉熵的音频指纹快速搜索方法无效
申请号: | 200910241366.7 | 申请日: | 2009-12-07 |
公开(公告)号: | CN101853262A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 欧智坚;林晖 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 朱琨 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交叉 音频 指纹 快速 搜索 方法 | ||
技术领域
本发明涉及一种基于交叉熵的音频指纹快速搜索方法,可以实现合理的跳跃式比对,达到从大量音频数据中进行高效准确的搜索的目的。
背景技术
音频指纹是指音频自身的基于内容的低维表示(一段音频被表示成一个低维特征矢量),不同内容的音频有不同的指纹。音频指纹技术有着广泛的应用背景,包括基于内容的音频辨识和检索,版权管理等领域。
现阶段已经存在很多不同的算法。这些算法主要在以下几点有区别:
1.音频特征的选取,如音频短时频谱的均值、方差、谱中心、基音等。
2.指纹模型的构造,如矢量量化码本,高斯混合模型等。
3.音频指纹对比所用的距离算法,如欧氏距离,马氏距离等
4.检索算法,如线性比对,最近邻比对等。
优秀的音频指纹搜索方法应该能够在音频信号由于压缩、传输等造成一定的失真之后,仍然能够进行正确比对,并且满足计算的时间复杂度要求。
发明目的
本发明提出了种对失真有更好稳健性,对距离度量具有更广的适应性的基于交叉熵的音频指纹快速搜索方法。
本发明的特征在于:是在计算机中依次按以下步骤实现的:
步骤(1)计算机初始化:
设置:共分量高斯混合模型生成模块,基于共分量高斯混合模型的音频指纹提取模块,广义动态时序比对模块,其中:
所述共分量高斯混合模型生成模块,使用事先采集好的约100个小时的音频数据,进行最大似然参数估计,创建一个共分量高斯混合模型;
所述音频指纹提取模块,基于所述共分量高斯混合模型提取音频指纹,并且用交叉熵衡量音频指纹间距离;
所述广义动态时序比对模块,以滑动窗方式将用户指定音频段与输入音频流进行指纹比较,判断音频流中是否包含有指定音频段。
步骤(2)按以下步骤创建一个共分量高斯混合模型:
步骤(2.1)事先采集好约100个小时的音频数据。经过短时傅立叶分析,以10毫秒为一帧提取一个倒谱特征矢量。
步骤(2.2)利用步骤(2.1)得到的倒谱特征矢量集,进行最大似然参数估计,创建一个共分量高斯混合模型。该模型包含M个高斯分布作为其分量,以及M个权重系数,M的取值为512:
{ωi(u),μi(u),∑i(u)}i=1,…,M
其中μi(u),∑i(U)表示第i个高斯分量的均值矢量和协方差矩阵,ωi(u)表示第i个高斯分量的权重系数,i=1,…,M,上标u标识此共分量高斯混合模型。
步骤(3)按以下步骤对用户指定音频段进行预处理:
步骤(3.1)向计算机输入用户指定音频段c,时间长度为几秒,经过短时傅立叶分析,以10毫秒为一帧提取一个倒谱特征矢量。这样,音频段c用一个倒谱特征矢最序列{xn(c)}n=1,…,W来表示,W表示音频段c的帧数,n=1,…,W表示音频段c的各帧的序号,上标c标识此音频段c。
步骤(3.2)按下式计算共分量高斯混合模型的第i个高斯分量在音频段c的第n帧的权重系数ωi,n(c),n=1,…,W:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910241366.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保复印纸的制造方法
- 下一篇:基于固定频段声波共振频率的液位测量方法