[发明专利]一种基于迁移学习的音频自动标注方法在审
申请号: | 202110712420.2 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113506553A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 居辰;韩立新 | 申请(专利权)人: | 河海大学 |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G06N20/00 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 何磊 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 音频 自动 标注 方法 | ||
本发明公开了一种基于迁移学习的音频自动标注方法,该方法主要包含以下步骤:数据预处理,根据音频标签的分布情况建立一级标签(例如:音乐流派、演奏乐器、音乐情绪、演唱者信息等),将原始数据集划分为包含一级标签的数据集作为模型的输入;迁移学习,利用图像识别领域中学习到的知识结构在音频小数据集上完成音频分类,同时可对未标注该一级标签的音频数据进行标注;音频自动标注,对标签重构后的数据集,使用不同的音频表示形式作为输入,构建分类器学习音频信号的时频域特征,进行自动标注。本发明提出的音频自动标注方法,可以有效的缓解原始音频标注数据集极度稀疏的问题,增加音频标注的多样性和均衡性,提高音频自动标注的准确率。
技术领域
本发明涉及音乐信息研究领域和迁移学习领域,具体来说是一种基于迁移学习的音频自动标注方法。
背景技术
近年来,随着互联网规模的扩大和数字多媒体技术的快速发展,音乐数字化已经成为趋势。在线音乐资源呈爆炸式增长,人们对音乐服务的质量要求也越来越高。数字化音乐网站的检索、推荐和页面导航的服务质量很大程度上依赖于音乐标签的质量:音乐检索通常以歌曲的音乐标签作为分类检索的依据,音乐推荐通常依据用户的收听历史为其推荐相似歌曲。然而,数字化音乐网站新上架的歌曲、冷门歌曲具有较少的标签信息,从而导致热度较低的长尾音乐很少被推荐或访问,得到用户或社区标注的机会就更少,形成负反馈效应。虽然专家标注能够解决歌曲长尾问题,但成本高昂,无法应用于大规模音乐曲库。因此,根据音乐音频进行音乐标签自动标注具有极高的研究价值。
音乐标签指能够表达音乐特性的高层次描述性词语,是数字化音乐服务的重要组成部分,常见的音乐标签类别有流派(例如古典、爵士、摇滚、乡村等)、演奏乐器(例如吉他、弦乐、钢琴、鼓等)、情绪(例如开心、舒缓、愤怒、紧张、哀伤等)、演唱者信息(性别、演唱者人数等)等。音乐自动标注需要从音频信息中预测音频标签,主要包含两个重要的子任务:获取有效表示音乐自身属性的音频描述性特征;学习从音乐特征到高层语义标签之间的映射。传统的音频自动标注方法直接通过信号处理系统从时域或频域计算出表示声音的相关特征(例如基频、共振峰、Mel频率倒谱系数等),而后作为机器学习阶段的输入信号,进行模型训练。但人工特征的设计十分繁重,需要较多专业知识,而且很难充分描述音乐各方面的特点。随着深度学习在模式识别的各个领域都取得了巨大成就,新的音乐标注方法被提出,通过组合卷积神经网络、循环神经网络等网络结构,学习从音频特征到文本标签之间的映射关系,但仍存在标注单一、准确性低的问题。
目前,公开的音频自动标注数据集包含流派、情感、演奏乐器、演唱者信息等标签,主要通过人工标注的方式进行标注,大都存在标注缺失、数据稀疏的问题。针对该问题,有必要设计一种方法合理扩充标签数据,一定程度上完善音乐的属性。迁移学习可以从相关领域中迁移标注数据或者知识结构完成或改进目标领域或任务的学习效果,主要分为基于实例的迁移、基于特征的迁移、基于共享参数的迁移,例如学会骑自行车,就比较容易学摩托车。对于原始集,可以依据一级标签将其划分为多个子数据集,这些子数据集分别对应不同一级标签下的音频自动标注任务。VGG、ResNet在图像识别领域中表现较好,将其迁移至音频分类任务中,一定程度上可以提高音频自动标注的效果,可以预测出数据集中缺失的标签。相较于其他音频自动标注研究方法,该方法弥补了原始数据集数据缺失的问题,同时使得数据更加均衡,提高了标签的多样性和平衡性。
考虑到音频在时域、频域包含着丰富的信息,在时域可以观察幅度(音量)随时间的变化,频域可以体现声音频率的变化,与音色相关。以音频的不同表示形式(音频时域信号、音频梅尔频谱图)作为输入,构造音频自动标注分类器学习音频在时域、频域的特征,最后进行决策级融合。相较于直接利用音频波形或音频声谱图进行自动标注研究,这不仅提高了音频信息的利用率,还提高了音频自动标注的准确率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110712420.2/2.html,转载请声明来源钻瓜专利网。