[发明专利]基于交叉熵的音频指纹快速搜索方法无效

申请号：	200910241366.7	申请日：	2009-12-07
公开（公告）号：	CN101853262A	公开（公告）日：	2010-10-06
发明（设计）人：	欧智坚;林晖	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	朱琨
地址：	100084 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于交叉熵的音频指纹快速搜索方法，属于音频指纹搜索技术领域，其特征在于，利用共分量高斯混合模型来描述音频指纹，并且用交叉熵来衡量音频指纹间的距离，然后用广义动态时序比对方法，以滑动窗方式将用户指定音频段与输入音频流进行指纹比较，判断该音频流中是否包含有指定音频段。本发明具有能大大地减少距离计算次数，而且还能适应于多种音频失真情况，错误率相对于使用L1距离降低了三分之一的优点，已完成软件实现并在仿真实验中予以测试。
搜索关键词：	基于交叉音频指纹快速搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于交叉熵的音频指纹快速搜索方法，其特征在于，是在计算机中依次按以下步骤实现的：步骤(1)计算机初始化：设置：共分量高斯混合模型生成模块，基于共分量高斯混合模型的音频指纹提取模块，广义动态时序比对模块，其中：所述共分量高斯混合模型生成模块，使用事先采集好的约100个小时的音频数据，进行最大似然参数估计，创建一个共分量高斯混合模型；所述音频指纹提取模块，基于所述共分量高斯混合模型提取音频指纹，并且用交叉熵衡量音频指纹间距离；所述广义动态时序比对模块，以滑动窗方式将用户指定音频段与输入音频流进行指纹比较，判断音频流中是否包含有指定音频段。步骤(2)按以下步骤创建一个共分量高斯混合模型：步骤(2.1)事先采集好约100个小时的音频数据。经过短时傅立叶分析，以10毫秒为一帧提取一个倒谱特征矢量。步骤(2.2)利用步骤(2.1)得到的倒谱特征矢量集，进行最大似然参数估计，创建一个共分量高斯混合模型。该模型包含M个高斯分布作为其分量，以及M个权重系数，M的取值为512：{ω_i^(u)，μ_i^(u)，∑_i^(u)}_{i＝1，...，M}其中μ_i^(u)，∑_i^(u)表示第i个高斯分量的均值矢量和协方差矩阵，ω_i^(u)表示第i个高斯分量的权重系数，i＝1，…，M，上标u标识此共分量高斯混合模型。步骤(3)按以下步骤对用户指定音频段进行预处理：步骤(3.1)向计算机输入用户指定音频段c，时间长度为几秒，经过短时傅立叶分析，以10毫秒为一帧提取一个倒谱特征矢量。这样，音频段c用一个倒谱特征矢量序列{x_n^(c)}_{n＝1，...，W}来表示，W表示音频段c的帧数，n＝1，…，W表示音频段c的各帧的序号，上标c标识此音频段c。步骤(3.2)按下式计算共分量高斯混合模型的第i个高斯分量在音频段c的第n帧的权重系数ω_i，n^(c)，n＝1，…，W：ωi,n(c)=ωi(u)Ni(xn(c)|μi(u),Σi(u))Σj=1Mωj(u)Nj(xn(c)|μj(u),Σj(u))]]>其中i＝1，…，M，j＝1，…，M为共分量高斯混合模型的高斯分量的编号，N_i(x|μ_i^(u)，∑_i^(u))表示均值矢量为μ_i^(u)，协方差矩阵为∑_i^(u)的高斯分布概率密度函数。按下式计算第i个高斯分量在音频段c中各帧的权重系数的算术平均值，用ω_i^(c)表示：ωi(c)=1WΣn=1Wωi,n(c),]]>计算得到的各个高斯分量的权重系数的算术平均值组成一个矢量{ω_t^(c)}_{i＝1，...，M}，将该矢量作为音频段c的低维表示一音频指纹。步骤(4)以滑动窗方式将用户指定音频段c与被测试音频流s进行指纹比较：步骤(4.1)在设定的小时数内，向计算机输入被测试音频流s，经过短时傅立叶分析，以10毫秒为一帧提取一个倒谱特征矢量。这样，被测试音频流s用一个倒谱特征矢量序列{x_t^(s)}_{t＝1，...，T}来表示，T为被测试音频流s的帧数，t＝1，…，T表示音频流s的各帧的序号，上标s标识此音频流s。步骤(4.2)按下式计算共分量高斯混合模型的第i个高斯分量在音频流s的第t帧的权重系数ω_i，t^(s)，t＝1，…，T：ωi,t(s)=ωi(u)Ni(xt(s)|μi(u),Σi(u))Σj=1Mωj(u)Nj(xt(s)|μj(u),Σj(u))]]>其中i＝1，…，M，j＝1，…，M为共分量高斯混合模型的高斯分量的编号。N_i(x|μ_i^(u)，∑_i^(u))表示均值矢量为μ_i^(u)，协方差矩阵为∑_i^(u)的高斯分布概率密度函数。步骤(4.3)设置l＝1。步骤(4.4)如果l+W-1＞T，则退出。步骤(4.5)将音频流s从第l帧开始的长度为W的一个窗内的音频段{x_t^(s)}_{t＝l，...，l+W-1}，以下称音频段s^(l)，与音频段c进行指纹距离计算。首先，按下式计算得到音频段s^(l)的指纹ωi(s,l)=1WΣt=ll+W-1ωi,t(s),]]>即第i个高斯分量在音频段s^(l)中各帧的权重系数的算术平均值作为音频段s^(l)的音频指纹的第i维。然后，按下式计算出音频段s^(l)的指纹{ω_i^(s，l)}_{i＝1，...，M}与音频段c的指纹{ω_i^(c)}_{i＝1，...，M}之间交叉熵距离dKL(l)=Σi=1M(ωis,l-ωi(c))logωi(s,l)ωi(c)]]>如果d_KL(l)≤θ，则判断音频流s从第l帧开始包含了音频段c，其中θ为一个预设检测阈值，取0.01。接着令l＝l+1，回到步骤(4.4)继续搜索音频流s的剩下部分是否还包含有音频段c。如果d_KL(l)＞θ，则按下式计算出一个跳跃步长其中Δ为一个预设偏移量，取0.001或0.005，表示向下取整。接着令l＝l+τ_KL-skip，回到步骤(4.4)继续搜索音频流s的剩下部分是否还包含有音频段c。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200910241366.7/，转载请声明来源钻瓜专利网。

上一篇：一种环保复印纸的制造方法
下一篇：基于固定频段声波共振频率的液位测量方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于交叉熵的音频指纹快速搜索方法无效

专利文献下载