[发明专利]一种流式的实时音频指纹识别方法有效
申请号: | 201410244726.X | 申请日: | 2014-05-30 |
公开(公告)号: | CN104008173B | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 王磊;洪顺迪 | 申请(专利权)人: | 杭州智屏电子商务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L25/48;G10L25/54 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 音频 指纹识别 方法 | ||
技术领域
本发明涉及网络通信技术领域,尤其涉及一种流式的实时音频指纹识别方法。
背景技术
由于音频指纹识别涉及两段音频,我们定义其中一段音频是母片,另一段音频是样片,当这两段音频指纹的内容是需要实时更新的(典型的一个应用场景是:判断一个网络流是不是一个盗版的电视流),通常的实时音频匹配方法的流程如下:a).实时采集一段时间长度为T1母片音频,并提取音频指纹特征值;b).实时采集一段时间长度为T2样片音频,并提取音频指纹特征值;c).通过寻找母片音频指纹和样片音频指纹中相同的特征值,给两段音频的相似度打分,相同的特征值越多,则分数越高,如果分数比我们设定的阀值要高,就认为两段音频内容一样,否则不一样。
对于实时的音频指纹匹配这种特定的场景,上面的通常方法存在四个问题:(1)采集音频耗时长,由于现有的音频指纹匹配算法中,尽管指纹特征值提取算法更有不同,但要想获取准确的匹配结果,采集音频的时间(T1和T2)需要到达足够的长度,不同的声音的场景(谈话,音乐,电影,体育节目等等),环境的噪音大小等都会对T1和T2的时间长度有不同的要求,噪音越大,要求的时间长度越长,如果想对任意环境下都有一个较好的音频识别效果,就需要分别花一段足够长时间的采集母片音频和样片的音频;(2)指纹匹配耗时长,因为采集了比较长的音频,相应的就会提出更多的指纹特征值,所以在执行音频指纹匹配算法时消耗了更多的时间;(3)可能会有FN,即应该匹配的没匹配,由于网络流会有延时的问题,比如一般网络电视会比电视机的内容延时3到5秒,甚至更长,这种情况下同样采集了5秒的网络电视音频和电视机的音频,实际上网络电视音频内容是电视机5秒以前的内容,这样这两段音频比较时得到的结果就是不匹配,尽管他们是同样的内容;(4)可能会出现FP,即不应该匹配的匹配了,部分音频指纹匹配算法由于只是统计了相同的特征值的多少,没有考虑匹配的时间跨度,比如两段10秒的音乐片段,中间恰巧有1秒声音很像,那么最终在比较这两段音频提取出来的指纹特征值的时候,大家就会有比较多的相同的特征值,然后两段音频内容被错误的认为是一样。
发明内容
本发明是为了解决现有实时的音频指纹匹配耗时长,准确度不高的问题,提供一种即时进行的,降低误差的流式的实时音频指纹识别方法。
为了实现上述目的,本发明采用以下技术方案:一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。由于音频的采集方式是流式的,无需等到采集了固定时间长度的音频之后才提取音频指纹特征值,对于一些噪音比较小,音频指纹特征值比较丰富的场景,能够更快的得到匹配结果,对与那些样片延迟导致的FN,只需要通过设置母片的指纹特征值的超时时间就可以解决,对比分析时采用匹配的时间区间与相同的特征值共同计算得分值,减少了出现FP的可能。
作为优选,所述的采集母片音频包括以下步骤:1)采集预定时间长度的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,所述的采集样片音频包括以下步骤:1)采集预定时间长度的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,所述的对比分析包括以下步骤:1)获取预定时间长度的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数;3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。获得母片音频和样片音频特征值后,进行比较获得匹配参数,如果相同的特征值个数大于一个阀值就把这些匹配的参数记录下来,否则认为这一小段没有匹配结果,有匹配结果的则将当前段匹配结果与之前的若干段匹配结果合并,共同进行对比分析,减小误差,段数取得越多,结果更准确。
作为优选,所述的预定时间长度设置为128ms。时间片段的长度越小,需要耗费的采集时间越小,音频指纹的匹配时间也越短。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州智屏电子商务有限公司,未经杭州智屏电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410244726.X/2.html,转载请声明来源钻瓜专利网。