[发明专利]基于交叉熵的音频指纹快速搜索方法无效

专利信息
申请号: 200910241366.7 申请日: 2009-12-07
公开(公告)号: CN101853262A 公开(公告)日: 2010-10-06
发明(设计)人: 欧智坚;林晖 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 朱琨
地址: 100084 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于交叉熵的音频指纹快速搜索方法,属于音频指纹搜索技术领域,其特征在于,利用共分量高斯混合模型来描述音频指纹,并且用交叉熵来衡量音频指纹间的距离,然后用广义动态时序比对方法,以滑动窗方式将用户指定音频段与输入音频流进行指纹比较,判断该音频流中是否包含有指定音频段。本发明具有能大大地减少距离计算次数,而且还能适应于多种音频失真情况,错误率相对于使用L1距离降低了三分之一的优点,已完成软件实现并在仿真实验中予以测试。
搜索关键词: 基于 交叉 音频 指纹 快速 搜索 方法
【主权项】:
1.基于交叉熵的音频指纹快速搜索方法,其特征在于,是在计算机中依次按以下步骤实现的:步骤(1)计算机初始化:设置:共分量高斯混合模型生成模块,基于共分量高斯混合模型的音频指纹提取模块,广义动态时序比对模块,其中:所述共分量高斯混合模型生成模块,使用事先采集好的约100个小时的音频数据,进行最大似然参数估计,创建一个共分量高斯混合模型;所述音频指纹提取模块,基于所述共分量高斯混合模型提取音频指纹,并且用交叉熵衡量音频指纹间距离;所述广义动态时序比对模块,以滑动窗方式将用户指定音频段与输入音频流进行指纹比较,判断音频流中是否包含有指定音频段。步骤(2)按以下步骤创建一个共分量高斯混合模型:步骤(2.1)事先采集好约100个小时的音频数据。经过短时傅立叶分析,以10毫秒为一帧提取一个倒谱特征矢量。步骤(2.2)利用步骤(2.1)得到的倒谱特征矢量集,进行最大似然参数估计,创建一个共分量高斯混合模型。该模型包含M个高斯分布作为其分量,以及M个权重系数,M的取值为512:{ωi(u),μi(u),∑i(u)}i=1,...,M其中μi(u),∑i(u)表示第i个高斯分量的均值矢量和协方差矩阵,ωi(u)表示第i个高斯分量的权重系数,i=1,…,M,上标u标识此共分量高斯混合模型。步骤(3)按以下步骤对用户指定音频段进行预处理:步骤(3.1)向计算机输入用户指定音频段c,时间长度为几秒,经过短时傅立叶分析,以10毫秒为一帧提取一个倒谱特征矢量。这样,音频段c用一个倒谱特征矢量序列{xn(c)}n=1,...,W来表示,W表示音频段c的帧数,n=1,…,W表示音频段c的各帧的序号,上标c标识此音频段c。步骤(3.2)按下式计算共分量高斯混合模型的第i个高斯分量在音频段c的第n帧的权重系数ωi,n(c),n=1,…,W:ωi,n(c)=ωi(u)Ni(xn(c)|μi(u),Σi(u))Σj=1Mωj(u)Nj(xn(c)|μj(u),Σj(u))]]>其中i=1,…,M,j=1,…,M为共分量高斯混合模型的高斯分量的编号,Ni(x|μi(u),∑i(u))表示均值矢量为μi(u),协方差矩阵为∑i(u)的高斯分布概率密度函数。按下式计算第i个高斯分量在音频段c中各帧的权重系数的算术平均值,用ωi(c)表示:ωi(c)=1WΣn=1Wωi,n(c),]]>计算得到的各个高斯分量的权重系数的算术平均值组成一个矢量{ωt(c)}i=1,...,M,将该矢量作为音频段c的低维表示一音频指纹。步骤(4)以滑动窗方式将用户指定音频段c与被测试音频流s进行指纹比较:步骤(4.1)在设定的小时数内,向计算机输入被测试音频流s,经过短时傅立叶分析,以10毫秒为一帧提取一个倒谱特征矢量。这样,被测试音频流s用一个倒谱特征矢量序列{xt(s)}t=1,...,T来表示,T为被测试音频流s的帧数,t=1,…,T表示音频流s的各帧的序号,上标s标识此音频流s。步骤(4.2)按下式计算共分量高斯混合模型的第i个高斯分量在音频流s的第t帧的权重系数ωi,t(s),t=1,…,T:ωi,t(s)=ωi(u)Ni(xt(s)|μi(u),Σi(u))Σj=1Mωj(u)Nj(xt(s)|μj(u),Σj(u))]]>其中i=1,…,M,j=1,…,M为共分量高斯混合模型的高斯分量的编号。Ni(x|μi(u),∑i(u))表示均值矢量为μi(u),协方差矩阵为∑i(u)的高斯分布概率密度函数。步骤(4.3)设置l=1。步骤(4.4)如果l+W-1>T,则退出。步骤(4.5)将音频流s从第l帧开始的长度为W的一个窗内的音频段{xt(s)}t=l,...,l+W-1,以下称音频段s(l),与音频段c进行指纹距离计算。首先,按下式计算得到音频段s(l)的指纹ωi(s,l)=1WΣt=ll+W-1ωi,t(s),]]>即第i个高斯分量在音频段s(l)中各帧的权重系数的算术平均值作为音频段s(l)的音频指纹的第i维。然后,按下式计算出音频段s(l)的指纹{ωi(s,l)}i=1,...,M与音频段c的指纹{ωi(c)}i=1,...,M之间交叉熵距离dKL(l)=Σi=1M(ωis,l-ωi(c))logωi(s,l)ωi(c)]]>如果dKL(l)≤θ,则判断音频流s从第l帧开始包含了音频段c,其中θ为一个预设检测阈值,取0.01。接着令l=l+1,回到步骤(4.4)继续搜索音频流s的剩下部分是否还包含有音频段c。如果dKL(l)>θ,则按下式计算出一个跳跃步长其中Δ为一个预设偏移量,取0.001或0.005,表示向下取整。接着令l=l+τKL-skip,回到步骤(4.4)继续搜索音频流s的剩下部分是否还包含有音频段c。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910241366.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top