[发明专利]一种音频指纹提取方法及装置在审
申请号: | 201810273669.6 | 申请日: | 2018-03-29 |
公开(公告)号: | CN110322886A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 李根;李磊;何轶 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L25/18;G10L25/24 |
代理公司: | 北京中原华和知识产权代理有限责任公司 11019 | 代理人: | 寿宁;张华辉 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频指纹 声谱图 掩模 音频指纹提取 特征点 权重 强弱 音频信号转换 能量确定 可信 | ||
1.一种音频指纹提取方法,所述方法包括:
将音频信号转换成声谱图;
确定所述声谱图中的特征点;
在所述声谱图上,为所述特征点确定一个或多个掩模,每个所述掩模包含多个谱区域;
确定每个所述谱区域的均值能量;
根据所述掩模中的所述多个谱区域的均值能量确定音频指纹比特;
判断所述音频指纹比特的可信程度以确定强弱权重比特;
将所述音频指纹比特和所述强弱权重比特进行组合,得到音频指纹。
2.根据权利要求1所述的音频指纹提取方法,其中,所述将所述音频信号转换成声谱图包括:通过短时傅里叶变换将所述音频信号转换成时间-频率的二维声谱图,所述声谱图中每个点的取值代表所述音频信号的能量。
3.根据权利要求2所述的音频指纹提取方法,其中,所述将音频信号转换成声谱图还包括:对所述声谱图进行梅尔变化。
4.根据权利要求2所述的音频指纹提取方法,其中,所述将音频信号转换成声谱图还包括:对所述声谱图进行人类听觉系统滤波。
5.根据权利要求2所述的音频指纹提取方法,其中,所述特征点为所述声谱图中的固定点。
6.根据权利要求5所述的音频指纹提取方法,其中,所述特征点为频率值与预设的多个频率设定值相等的点。
7.根据权利要求2所述的音频指纹提取方法,其中,所述特征点为所述声谱图中的能量极大值点,或者,所述特征点为所述声谱图中的能量极小值点。
8.根据权利要求1所述的音频指纹提取方法,其中,所述掩模所包含的多个所述谱区域是对称分布的。
9.根据权利要求8所述的音频指纹提取方法,其中,所述掩模所包含的多个所述谱区域具有相同的频率范围、和/或具有相同的时间范围、和/或以所述特征点为中心而中心对称分布。
10.根据权利要求1所述的音频指纹提取方法,其中,所述谱区域均值能量为所述谱区域所包含的所有点的能量值的平均值。
11.根据权利要求1所述的音频指纹提取方法,其中,所述的根据所述掩模中的所述多个谱区域的均值能量确定音频指纹比特包括:
根据一个所述掩模所包含的多个所述谱区域的均值能量的差值确定一个音频指纹比特。
12.根据权利要求11所述的音频指纹提取方法,其中,所述的判断所述音频指纹比特的可信程度以确定强弱权重比特包括:
判断所述差值的绝对值是否达到或超过预设的强弱比特阈值,如果达到或超过所述强弱比特阈值,则将所述音频指纹比特确定为强比特,否则将所述音频指纹比特确定为弱比特;根据所述音频指纹比特是强比特还是弱比特来确定所述强弱权重比特。
13.根据权利要求12所述的音频指纹提取方法,其中,所述的强弱比特阈值为固定值、或者为基于所述差值的值、或者为比例值。
14.根据权利要求1所述的音频指纹提取方法,所述方法还包括:
将音频信号按时间分成多段音频子信号;
提取所述音频子信号的所述音频指纹;
将提取得到的各个所述音频子信号的所述音频指纹进行组合,得到所述音频信号的音频指纹。
15.一种音频指纹库构建方法,所述方法包括:
按照如权利要求1到14中任意一项所述的音频指纹提取方法提取音频信号的音频指纹;
将所述音频指纹存储到音频指纹库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810273669.6/1.html,转载请声明来源钻瓜专利网。