[发明专利]一种基于长时结构声纹的多层滤波音频检索方法和装置无效

申请号：	201010524833.X	申请日：	2010-10-29
公开（公告）号：	CN101980197A	公开（公告）日：	2011-02-23
发明（设计）人：	刘刚;王镪;郭军	申请（专利权）人：	北京邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30;G10L15/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于结构声纹多层滤波音频检索方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机技术应用领域，具体的涉及一种查询音频数据库的方法和装置，尤其涉及一种基于内容的样例音频检索方法，即通过录制的原始音频片断搜索到整个音频的完整信息。

背景技术

随着现代信息技术，特别是多媒体技术和网络技术的迅速发展，大量的多媒体信息都可以从网上获得。而各种音频文件更成为各搜索引擎(例如百度、Google等)中最常被使用者查找的对象。传统的音频信息检索技术主要是基于文本的，然而传统的基于文本的音频信息检索无法满足人们对音频检索的需求。也就是说，如果用户听到一段很熟悉的音频，想通过录制几秒钟的片断来查询整段音频的信息，目前在技术上仍然存在较大的实现难度。

目前互联网上的音频搜索服务从本质上来说只是一种文本搜索，是通过匹配音频相关文字内容、关键字词而返回结果。要想对录制的音频片断进行搜索，就涉及到基于内容的样例音频检索。而现有的音频检索技术尚不能满足人们的需求。近年来，基于内容的音频检索技术成为了一个研究热点，众多领域的科学家开始探讨这一新的技术挑战。

基于内容的音频检索，通过录制几秒钟的片断来实现查询是最基本的实现方式之一，即样例检索。它指的是用户输入音频片断或者通过麦克风录制一段音频，这些片断中可能含有各种噪声，系统能正确返回音频片断的相关信息。

基于样例的音频检索，通常可以分为两个子问题：1)把询问的音频片断转为具有代表性的特征序列组成声纹(声纹是指能代表一段音频并能构建索引的特征序列)2)在库中搜索与特征序列最相似的候选片断。比较经典的音频检索方法主要有两类：基于局部特征点或者全局结构信息的音频检索方法。基于局部特征点的方法，一般是从频谱中寻找一些典型的特征点，例如英国的Shazam公司，提取频谱峰值信息，然后将特征点组成特征点对，把特征点对作为该片段的声纹；搜索时候建立哈希索引实现快速搜索。此方法的特点是不需要保留频谱的全局信息，特征具有代表性，抗造性能强，缺点是信息量少，声纹构建索引时碰撞比较严重。基于全局结构信息的方法，是保留整个频谱的全局信息，信息量大，但是抗噪性能不强，信息代表性差，例如荷兰的Philips研究所提出的方法，把300-2000Hz之间的频谱分成33个非重叠的子频带，最终子频带由0或者1来表示，这些0、1序列组成声纹；搜索时候也使用声纹构建哈希表来加快搜索速度。

这些音频检索方法在小规模应用中可以得到比较好的效果，但是当音频库为海量时，会有很多问题出现，比如索引碰撞严重，搜索时间过长。由于提取的特征信息量不够，导致建立索引时碰撞严重，搜索时间比较长，如果用特征点对组成声纹来增加声纹信息量，减少索引碰撞，又会降低声纹稳定性，检索精度下降，也就是说声纹碰撞率和稳定性之间是一个矛盾，低碰撞率必然会带来声纹的稳定性下降。

发明内容

有鉴于此，本发明的目的是提供一种基于长时结构声纹和多层滤波的音频检索方法，有效解决声纹稳定性与碰撞率之间相互矛盾的问题，对于海量音频数据库，本发明可以有效提高音频检索的检索正确率、检索效率以及抗噪声性能。

为了实现上述发明目的，本发明采用下述技术方案：

一种基于长时结构声纹的多层滤波音频检索方法，其特征在于：

(1)提取用户输入音频片断的稳定特征，例如频谱峰值特征；

(2)根据特征点生成具有长时结构信息的声纹(英文名为audio fingerprint，是指能代表一段音频并能构建索引的特征序列)；

(3)经过第一层滤波器，以所有声纹为查找项，查找哈希索引，得到候选片断中间结果，并使用原始频谱特征点计算中间结果相似度，然后根据相似度对中间结果进行排序；

(4)对第一层滤波器排名第一的候选结果进行置信度打分，如果超过预定门限值，则输出结果，否则转入第5步；

(5)扩展查询声纹数目，进入第二层滤波器，根据索引表，查找更多中间结果，并计算中间结果相似度，然后对第一二层滤波器结果根据相似度进行排序；

(6)选择相似度最高的音频片断信息返回用户。

其中，被查询的音频数据库通过如下步骤获得：

(1)提取音频数据库稳定特征，例如频谱峰值特征；