[发明专利]一种音频指纹库生成方法及装置在审

申请号：	202110506344.X	申请日：	2021-05-10
公开（公告）号：	CN113421585A	公开（公告）日：	2021-09-21
发明（设计）人：	曹杰;刘金良;王昌辉	申请（专利权）人：	云境商务智能研究院南京有限公司;南京财经大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L25/51;G10L19/02
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210003 江苏省南京市鼓楼***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频指纹生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频指纹库生成方法，其特征在于，包括以下步骤：

步骤S1、根据歌曲标签创建对应名称的数据库；根据歌曲标签确定流派，创建相应流派的数据库存储相同流派目标音频的歌曲信息和音频指纹；

步骤S2、对目标音频进行预处理；将目标音频从立体声转换为单声道，并对目标音频进行降采样；

步骤S3、对预处理后的目标音频通过傅里叶变换和梅尔频谱变换，获取目标音频的梅尔频谱图；

以帧为单位对预处理后的目标音频进行分割，按照预设帧重叠率将所述音频分割为若干音频帧；对每个分割后的音频帧进行短时傅里叶变换，转换为随时间变化的频谱片段，将所述频谱片段整合成频谱图；对所述频谱图进行梅尔频谱变换，将得到的所有的梅尔频谱图整合存储在本地文件中；

步骤S4、根据步骤S3获得的梅尔频谱图，将其映射到33个频率带中，提取音频特征，对所述音频特征进行编码，生成对应的音频指纹，并存储到相应的数据库中；

步骤S5、将得到的所述梅尔频谱图分割后投入深度神经网络中进行特征提取，训练神经网络模型，保留最终更新后的参数，用于对歌曲进行流派分类。

2.根据权利要求1所述的一种音频指纹库生成方法，其特征在于，所述步骤S3中通过傅里叶变换和梅尔频谱变换，获取目标音频的梅尔频谱图的具体步骤如下：

步骤S3.1、以帧为单位对预处理后的目标音频进行分割，将原始音频中帧的重叠率设为1/2～3/4；

步骤S3.2、对分割后的音频帧进行短时傅里叶变换，对转换后的音频帧进行压缩，并将得到的所述频谱片段整合转换为随时间变化的频谱图；

步骤S3.3、采用梅尔标度的三角形滤波器组转换频谱图，用对数函数对上述转换后的频谱图进行缩放，获取目标音频的梅尔频谱图。

3.根据权利要求1所述的一种音频指纹库生成方法，其特征在于，所述步骤S4中生成对应的音频指纹具体步骤如下：将梅尔频谱图中的频域划分为33个子带，每一帧提取32位的子指纹值，将得到的所述目标音频的音频指纹存入对应标签的数据库中。

4.一种用于权利要求1-3中任一项所述音频指纹库生成方法的音频指纹库生成装置，其特征在于，包括数据库创建模块、数据预处理模块、数据生成模块、音频指纹生成单元和神经网络模块；所述数据库创建模块用于创建不同流派标签下对应的数据库，来存储相应流派的歌曲信息和音频指纹；所述数据预处理模块将目标音频由立体声转换为单声道，对目标音频进行降采样；所述数据生成模块接收数据预处理模块降采样后的音频数据，对目标音频进行傅里叶变换生成随时间变化的频谱图，对频谱图进行梅尔谱图变换得到梅尔频谱图；所述音频指纹生成单元将生成的梅尔频谱图映射到33个频率带中，提取指纹后编码，将音频指纹存入相应的数据库；所述神经网络模块将生成的梅尔频谱图分割后投入神经网络中进行训练，保留最终更新后的参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云境商务智能研究院南京有限公司;南京财经大学，未经云境商务智能研究院南京有限公司;南京财经大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110506344.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种音频指纹库生成方法及装置在审

专利文献下载