[发明专利]一种音频指纹匹配方法以及音频指纹匹配装置有效
申请号: | 201910171672.1 | 申请日: | 2019-03-07 |
公开(公告)号: | CN109829515B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 姜卫平;张家斌;纵瑞芳;赵敏 | 申请(专利权)人: | 北京市博汇科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/683 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 指纹 匹配 方法 以及 装置 | ||
1.一种音频指纹匹配方法,其特征在于,包括:
获取第一音频段包含的至少两个音频帧中每个音频帧的频谱幅值;
根据所述第一音频段包含的至少两个音频帧中每个音频帧的频谱幅值,确定每个音频帧在至少两个音调频率子带中每个音调频率子带上的平均谱能量;
根据每个音频帧在至少两个音调频率子带中每个音调频率子带上的平均谱能量,确定每个音频帧的平均谱能量峰值在所述至少两个音调频率子带中所属的目标音调频率子带;
根据所述每个音频帧的平均谱能量峰值在所述至少两个音调频率子带中所属的目标音调频率子带,生成所述至少两个音频帧的平均谱能量峰值位置点图像;
利用分类器对所述平均谱能量峰值位置点图像中的平均谱能量峰值位置点进行量化,并根据量化结果获取所述至少两个音频帧中每个音频帧的音频指纹;
确定第二音频段包含的至少两个音频帧中每个音频帧的音频指纹;
根据所述第一音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间以及所述第二音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间,获取所述第一音频段中至少两个音频帧与所述第二音频段中至少两个音频帧对应音频帧的指纹距离的平均值;
在所述平均值小于或者等于第一预设阈值的情况下,确定所述第一音频段与所述第二音频段相匹配;
在所述平均值大于所述第一预设阈值的情况下,确定所述第一音频段与所述第二音频段不匹配。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间以及所述第二音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间,获取所述第一音频段中至少两个音频帧与所述第二音频段中至少两个音频帧对应音频帧的指纹距离的平均值,包括:
根据所述第一音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间以及所述第二音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间,确定对齐偏移量;
根据所述对齐偏移量,获取所述第一音频段中至少两个音频帧与所述第二音频段中至少两个音频帧对应音频帧的指纹距离的平均值。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间以及所述第二音频段包含的至少两个音频帧中每个音频帧的音频指纹和帧时间,确定对齐偏移量,包括:
确定所述第一音频段包含的至少两个音频帧与所述第二音频段包含的至少两个音频帧中具有相似指纹的音频帧对,其中,具有相似指纹的音频帧对中的两个音频帧的指纹距离小于第二预设阈值;
计算所述具有相似指纹的音频帧对中第一音频帧与第二音频帧的帧时间差,其中,所述第一音频帧属于所述第一音频段,所述第二音频帧属于所述第二音频段;
获取具有同一帧时间差的音频帧对;
在具有目标帧时间差的音频帧对的数量最多且该数量大于第三预设阈值的情况下,确定所述目标帧时间差为所述对齐偏移量。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述分类器包含第一区域和第二区域,所述利用分类器对所述平均谱能量峰值位置点图像中的平均谱能量峰值位置点进行量化,并根据量化结果获取所述至少两个音频帧中每个音频帧的音频指纹,包括:
确定所述平均谱能量峰值位置点图像中位于所述分类器的第一区域的平均谱能量峰值位置点的第一数量;
确定所述平均谱能量峰值位置点图像中位于所述分类器的第二区域的平均谱能量峰值位置点的第二数量;
计算所述第一数量与所述第二数量的差值;
根据所述差值获取所述至少两个音频帧中每个音频帧的音频指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市博汇科技股份有限公司,未经北京市博汇科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910171672.1/1.html,转载请声明来源钻瓜专利网。