[发明专利]一种基于变速模板的音频样例检索方法有效
申请号: | 201811619717.9 | 申请日: | 2018-12-28 |
公开(公告)号: | CN111382302B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 李超;王佩;张学帅;邹学强;刘建;徐杰;胡琦 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/632;G06F16/61 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;王宇杨 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 变速 模板 音频 检索 方法 | ||
1.一种基于变速模板的音频样例检索方法,其特征在于,该方法具体包括:
针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段;
所述哈希表的预先建立的步骤具体包括:
步骤1)获取音频样例的音频指纹;
步骤2)根据步骤1)中获取的音频指纹,提取音频指纹的二进制音频指纹序列值,以二进制音频指纹序列值为关键字建立哈希表;
所述步骤1)具体包括:
步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号,获得第一音频信号;
步骤1-2)将步骤1-1)获得的第一音频信号,以每0.064秒为一帧,对其进行分帧,获得多帧音频,根据公式(2),对每一帧音频用相同的汉明窗长度进行加权,加权方式如公式(3),以获得每一帧音频的加权后的第n个音频样点的值x(n);
其中,N为汉明窗长度,即每一帧音频的样点数;x'(n)为原始的第n个音频样点的值;w(n)为第n个音频样点的权重值;x(n)为加权后的第n个音频样点的值;
步骤1-3)针对步骤1-2)获得的每一帧音频的第n个音频样点的值x(n),采用一阶FIR高通滤波器,根据公式(4),进行预加重,获得预加重后的输出信号的值y(n);
y(n)=x(n)-ax(n-1) (4)
其中,a为预加重系数,0.9a1.0;x(n-1)为加权后的第n-1个音频样点的值;
步骤1-4)采用快速傅里叶算法,对步骤1-3)中的输出信号的值y(n),利用公式(5),进行离散傅立叶变换,获得音频帧经傅里叶变化后的频点值X(k);
其中,X(k)为音频帧经傅里叶变化后的频点值;N'为傅里叶变化采取的音频点数;k为频点编号;j为虚数;
步骤1-5)在频域,针对步骤1-4)中的X(k),在梅尔域进行子带划分,一共分成M个子带,根据公式(6),获得第m子带的起始频率f(m):
其中,Fmin为映射下限;Fmax为映射上限;M为子带个数;
步骤1-6)利用公式(7),计算第m子带所包含的能量e(m);假设第m子带的起始频率为f(m),第m+1子带的终止频率为f(m+1);
其中,音频帧经离散傅里叶变化后的频点值X(k)的绝对值的平方为第m子带所包含的能量e(m);
步骤1-7)假定第i帧音频信号的第m子带的能量为eim,其对应的二进制音频指纹序列值为tim,则音频指纹的每个比特定义为:
其中,sim为第i帧音频信号的第m子带与第i-1帧音频信号的第m+1子带之间的一阶相邻能量差;tim为第i帧音频信号第m子带的二进制音频指纹序列值;
根据获得的tim,获得第i帧音频信号的音频指纹。
2.根据权利要求1所述的基于变速模板的音频样例检索方法,其特征在于,所述查找出短音频的音频指纹的二进制音频指纹序列值对应的模板音频的音频指纹序列值具体包括:
设一段音频时常为L秒的待检音频A,按2秒长度,将待检音频A拆分为多个短音频片段,如公式(10),形成短音频片段组合;其中,拆分待检音频A后,剩余的待检音频A不够2秒的短音频片段单独成为短待检片段:
(A1,A2,A3,A4...Ak)(10)其中,Ak表示待检音频A拆分后的第k个短音频片段;
针对每一个短音频片段,根据步骤1)的提取步骤,提取出各个短音频片段的音频指纹,进而提取各个短音频片段的音频指纹的二进制音频指纹序列值,查找预先建立的哈希表,查找出各个短音频片段的音频指纹的二进制音频指纹序列值对应的模板音频的音频指纹序列值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619717.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:混合动力耦合系统及车辆
- 下一篇:一种照明灯插接头