[发明专利]基于语义的音乐检索数据集的建立方法在审
申请号: | 201810122338.2 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108363769A | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 秦静;汪祖民;季长清;闫妍 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 语义 音乐检索 标签选择 歌曲数据 技术要点 用户检索 语义向量 大数据 云计算 中文 | ||
1.一种基于语义的音乐检索数据集的建立方法,其特征在于,包括:中文歌曲数据爬取;
标签选择;
语义向量集生成。
2.如权利要求1所述的基于语义的音乐检索数据集的建立方法,其特征在于,中文歌曲数据爬取的步骤如下:数据集中包含了500首不同艺术家的作品,每首歌至少被三人独立标注,标注词集合中包含174个标签,每首歌如果被80%以上的人用某个词标注过,则在标注向量中值为1,否则值取0,对中文音乐及其标签信息进行了爬取和补充。
3.如权利要求2所述的基于语义的音乐检索数据集的建立方法,其特征在于,对中文音乐及其标签信息进行了爬取和补充步骤如下:基于python第三方库设计程序对音乐的信息爬取,爬取过程如下:
①.从页面获取所有标签对应的url以及分类;
②.逐个遍历获取各个标签url下的歌曲url;
③.遍历所有歌曲url,获取歌曲信息,以固定字符串格式写入文件,all_<标签名>.txt是所有歌曲的信息,每个歌曲所有信息对应一行;
④.运行结束,爬取完所有标签下的歌曲信息。
4.如权利要求3所述的基于语义的音乐检索数据集的建立方法,其特征在于,爬取完所有标签下的歌曲信息生成以下文件:
①.file文件夹下存的是各个主题;
②.主题文件夹下是的标签名以及url_list.txt是各个标签对应的url;
③.标签名文件夹存的是歌词和all_<标签名>.txt是所有歌曲的信息。
5.如权利要求4所述的基于语义的音乐检索数据集的建立方法,其特征在于,标签选择的方法如下:为了将中英文数据集合并,对中英文标注标签进行了选择,首先将标签分为:场景、流派、乐器、情感四大类,从CAL500数据集的174个标签中,剔除语义重复值,与爬取到的中文的标签语义对应求交集,最终选定33个中英文对照语义标签。
6.如权利要求5所述的基于语义的音乐检索数据集的建立方法,其特征在于,语义向量集生成方法如下:按照语义标签的选择及标注情况,计算语义向量,根据标签标注情况,得到数据集中中英文歌曲对应的语义向量集,得到的语义向量集分为训练集和测试集用于卷积神经网络的训练和测试,根据标签选择及中文歌曲爬取策略,爬取并整理中文歌曲1000首,与CAL500数据集中的英文歌曲合并后,去除长度或标签不符的歌曲,数据集中包含中英文歌曲共1483首,按照音乐推荐算法,对上述音乐进行聚类,形成推荐专辑70个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810122338.2/1.html,转载请声明来源钻瓜专利网。