[发明专利]一种音乐自动标签方法在审
申请号: | 202110786039.0 | 申请日: | 2021-07-12 |
公开(公告)号: | CN113468366A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 江琼琴;宋文广;赵俊峰;丁宇;余华平;张健;沈彊海;雷鸣;罗爱军;王桃群;徐丞;黄岚;曹兴芹;袁园;蔡明文 | 申请(专利权)人: | 长江大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F40/242;G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 罗江 |
地址: | 434023*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音乐 自动 标签 方法 | ||
1.一种音乐自动标签方法,其特征在于,包括以下步骤:
S1:获取若干首音乐样本,音乐样本中至少包括“音乐主题”、“情感状态”和“场景”标签;
S2:设置初始模型,对音乐样本进行机器学习训练,得到自动标签模型;
S3:通过自动标签模型对未知音乐进行标签;
S2过程中,初始模型包括Embedding层、Transformer层、TextCNN层和sigmoid层,其中,
Embedding层用于获取音乐样本,并对音乐样本进行处理,处理过程包括以下步骤:
S2101:将音乐样本中所有句子的长度补充到相同大小,文字信息标为1,填充部分标为0;
S2102:使用Token Embeddings获得原来的字向量,position Embeddings获取位置信息,Segment Embeddings获取句子上下文信息;
S2103:输出结果;
Transformer层得到S2103的输出结果,并进行处理,处理过程包括以下步骤:
S2201:让每个向量表示获取全句的特征信息;
S2202:将Embeddings_size=128做矩阵进行维度变换为hidden size=384;
S2203:将层进行分组,再将组内第一层的参数共享到组内后面的encoder结构中,使得一组结构只学习第一层encoder的参数;
S2204:开始训练self-attention和全连接层;
S2205:得到训练结果;
TextCNN层得到S2205的训练结果并进行处理,处理过程包括以下步骤:
S2301:设置卷积核大小为[2,3,4,5,6];
S2302:五种大小不同的卷积核在Transformer层输出的语句向量矩阵中自上而下滑动,将矩阵从(max_seq_length,Embeddings_size)卷积成(max_seq_length-fws+1,1);
S2303:获得每个fws下的特征向量,再将5个fws特征向量拼接输入到sigmoid层中;
sigmoid层得到S2303结果后进行处理,处理过程包括以下步骤:
S2401:将TextCNN向量结果输入到全连接层映射到最后的结果层,结果向量固定为21个维度,21个维度分别对应歌词文本的21种不同的标签;
S2402:使用sigmoid函数作为输出层的激活函数;
S2403:将每个单独的标签的输出在[0,1]之间,并设置阈值大小对比判断进行二分算计。
2.根据权利要求1所述的音乐自动标签方法,其特征在于,所述S1过程中,包括“音乐主题”、“情感状态”和“场景”标签的音乐样本的获取方法步骤以下步骤:
S101:获取原始歌曲若干首;
S102:通过现有标签,对原始歌曲进行人为标签填充;
S103:将原始歌曲进行歌词文本拆分,使得歌词对应“情感状态”的对应标签;
S104:对情感表达不明确的内容进行清洗。
3.根据权利要求2所述的音乐自动标签方法,其特征在于,所述S104过程中,情感表达不明确的内容至少包括外语、梵文、不便于识别的符号和纯音乐。
4.根据权利要求1所述的音乐自动标签方法,其特征在于,所述S2过程中,抽取80%的数据作为训练集,剩下的数据作为测试集和验证集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长江大学,未经长江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110786039.0/1.html,转载请声明来源钻瓜专利网。