[发明专利]基于音频能量特性的音频指纹识别有效
申请号: | 201780034005.8 | 申请日: | 2017-04-07 |
公开(公告)号: | CN109644283B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 帕特里克·格林 | 申请(专利权)人: | 源数码有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/242;H04N21/422;H04N21/43;H04N21/439;H04N21/4722;H04N21/858 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 谢攀;刘继富 |
地址: | 美国宾夕*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音频 能量 特性 指纹识别 | ||
1.一种音频指纹识别的方法,包括:
获取一段音频的音频样本,所述音频样本中的每一个对应一个特定时间;
生成所述音频样本的频率表示,所述频率表示被划分为频带;
识别所述频带中的能量区域,所述能量区域中的每一个是能量增加区域和能量减少区域中的一个,能量增加区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间增加,能量减少区域定义为所述频带中的一个频带内的时间区域,其中在该时间区域期间音频能量从该时间区域的开始时间到结束时间减少;
分析所识别的能量区域出现在时间窗口内的部分,以生成该段音频的特征的散列,特征的每个散列对应于所识别的能量区域出现在相应时间窗口中的部分,每个特征被定义为对信息编码的数值,所述信息表示:出现在所述相应时间窗口中的能量区域的频带、出现在所述相应时间窗口中的所述能量区域是否为能量增加区域或者出现在所述相应时间窗口中的所述能量区域是否为能量减少区域、出现在所述相应时间窗口中的所述能量区域的位置,出现在所述相应时间窗口中的所述能量区域的位置对应于以下中的一个:
出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口之后结束,
出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口之前开始并在所述相应时间窗口内结束,
出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口之后结束,和
出现在所述相应时间窗口中的所述能量区域是否在所述相应时间窗口内开始并在所述相应时间窗口内结束;以及
将特征的每个散列与所述特定时间一起存储。
2.根据权利要求1所述的方法,包括:
将特征的每个散列转换为所述特征的MinHash表示或MinHash值;以及
将所述MinHash值与所述特定时间一起存储。
3.根据权利要求1所述的方法,包括:
将特征的每个散列转换为所述特征的MinHash表示,所述MinHash表示具有一百个MinHash值;
以分片大小五对所述一百个MinHash值进行分片,以获得二十行或二十组五个MinHash分片值;
将行或组内的五个MinHash分片值组合成64比特数,以获得具有二十个64比特数的指纹散列;以及
将所述指纹散列与所述特定时间一起存储。
4.根据权利要求1所述的方法,其中获取一段音频的音频样本包括:
使用4096个样本的采样窗口大小和31/32的窗口重叠在8kHz下对该段音频进行采样。
5.根据权利要求1所述的方法,其中所述频带包括四十四个频带,所述四十四个频带为以200Hz开始的第一频带到以3300Hz结束的第四十四频带。
6.根据权利要求1所述的方法,其中所述频带包括四十四个频带,所述四十四个频带的带宽从以200Hz开始的第一频带到以3300Hz结束的第四十四频带以对数方式减小。
7.根据权利要求1所述的方法,其中所述时间窗口中的每一个的窗口大小为1000毫秒并且窗口重叠为950毫秒。
8.根据权利要求1所述的方法,其中识别能量区域包括:忽略所述频带中的所述一个频带内满足如下条件的时间区域:在该时间区域期间,音频能量波动使得该时间区域内的净能量变化从该时间区域的开始时间到结束时间为零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于源数码有限公司,未经源数码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780034005.8/1.html,转载请声明来源钻瓜专利网。