[发明专利]一种基于长时结构声纹的多层滤波音频检索方法和装置无效
申请号: | 201010524833.X | 申请日: | 2010-10-29 |
公开(公告)号: | CN101980197A | 公开(公告)日: | 2011-02-23 |
发明(设计)人: | 刘刚;王镪;郭军 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L15/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 声纹 多层 滤波 音频 检索 方法 装置 | ||
1.一种基于长时结构声纹的多层滤波音频检索方法,其特征在于:
(1)提取用户输入音频片断的稳定特征,例如频谱峰值特征;
(2)构建具有长时结构信息的声纹;
(3)经过第一层滤波器,以所有声纹为查找项,查找数据库索引,得到候选中间结果,并根据原始特征计算中间结果相似度,然后根据相似度对中间结果进行排序;
(4)对第一层滤波器排名第一的候选结果进行置信度打分,如果超过预定门限值,则输出结果,否则转入第5步;
(5)扩展查询声纹,进入第二层滤波器,根据索引表,查找更多中间结果,并计算中间结果相似度,然后把第一二层滤波器结果根据相似度进行排序;
(6)根据排序结果,选择相似度最高的音频片段信息返回用户。
2.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
被查询的音频数据库通过如下步骤获得:
(1)提取音频数据库稳定特征,例如频谱峰值特征;
(2)生成具有长时结构信息的声纹;
(3)使用所有数据库声纹构建哈希索引,键为声纹,值为声纹所在音频文件名以及声纹所在音频文件中的位置。
3.根据权利1和权利2要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
具有长时结构信息的声纹构建方法,采用多个特征点构建声纹,组成声纹的特征点数目以及特征点之间的间隔可以根据实际情况调整,构建公式如下:
hash(fi,fi+1,...,fi+r-1)=fi+fi+1*n+...+fi+r-1*nr-1
上述为r个特征点构建声纹的公式,其中,f为音频特征,n为特征点取值范围上限。
4.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
查询结果置信度计算,对第一层滤波器输出结果进行置信度计算,用来评价第一层滤波器输出结果的可信度。置信度计算方法有多种,本方法中输出结果置信度计算公式如下:
C是输出结果的置信度,S1是第一候选的相似度,S2是第二候选的相似度。
5.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
基于容错的查询声纹扩展方法,是对录制片断的每个特征点上下浮动几个位置,使得输入片段的声纹扩展为多个声纹,做为第二次检索的查询输入,例如上下浮动1,特征点扩展为原来的3倍,声纹数目扩展成原来的3r倍,r为构建一个声纹的特征点数目。
6.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
滤波器算法包括三步:1、根据数据库索引表查找候选中间结果;2、计算中间结果相似度;3、根据相似度对中间结果排序。
7.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
有选择的两层滤波算法,即通过计算第一层滤波器输出结果的可信度,来选择是否进行更为复杂的第二次滤波,即当第一层结果不可信时才经过查询扩展进入第二层滤波。
8.根据权利1和权利2要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
录制片断特征提取时帧移是数据库中音频数据帧移的一半。
9.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于:
作为第二层滤波器的一种替代算法,第二层滤波器可以使用更精确的索引结构,例如每个声纹由较少的特征点构建,来提高检索性能。
10.一种基于长时结构声纹的多层滤波音频检索装置,包括:
(1)离线数据库索引构建模块;
音频数据库单元,即构成查询库的音频数据库。
声纹构建单元,即提取音频数据特征点,用具有长时结构信息的多个特征点构建声纹;
构建索引单元,对于音频库中音频文件,用所有的声纹构建一个哈希表索引,声纹为键,声纹所在音频文件名字以及所在音频文件位置是值。
(2)在线查询搜索模块。
输入单元,输入为复杂环境中录制的原始音频片断;
声纹构建单元,即提取特征点,用具有长时结构信息的多个特征点构建声纹;
滤波器单元,包括三步,分别为:根据哈希索引表查找候选中间结果,计算中间结果相似度,根据相似度对结果排序。
置信度计算单元,对第一层滤波器输出结果进行置信度打分,评价可信度;
查询扩展单元,使用一种基于容错的查询扩展对询问声纹进行扩展;
检索结果输出单元,输出检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010524833.X/1.html,转载请声明来源钻瓜专利网。