[发明专利]基于层次注意力机制的歌词情感分类方法在审
申请号: | 202210059578.9 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114416993A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 杜潇;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/216;G06F40/30;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 注意力 机制 歌词 情感 分类 方法 | ||
1.基于层次注意力机制的歌词情感分类方法,其特征在于:包括以下步骤:
步骤一:数据集的建立;中文歌曲领域缺乏公开数据集,通过网络爬虫技术在音乐网站爬取歌词,构建中文歌词的数据集;按照VA情感模型进行情感极性标注,通过音乐网站的歌单标签作为情感极性标注的依据;
步骤二:歌词编码;将数据集中的歌词进行分段,对段落中的词语进行词嵌入编码,获得词语的向量表示;然后将词向量依次拼接,构成歌词段落的向量表示;
步骤三:词注意力机制;歌词段落中不同词语对于情感极性判定的重要程度不同,词注意力层用来学习词语的重要性权重;使用词注意力机制,对步骤二得到的歌词段落编码进行上下文学习以获取词语的注意力权重;计算情感词的情感强度特征,将情感词的情感强度特征与词注意力权重结合,作为段落中词语的最终权重;将词语特征向量与权重加权求和,得到段落的向量表示;
步骤四:段落注意力机制;对歌词的每一段落进行步骤三的特征向量编码,使用段落注意力机制对段落特征向量进行上下文学习,为每一段落赋予权重,表示对情感极性判定的重要性;然后计算每一段落的情感强度特征,将每一段落的情感强度特征与注意力权重结合,以捕捉段落间情感强度的变化;最后,将段落特征向量与段落权重加权求和,得到整首歌词的特征向量;
步骤五:情感分类;使用softmax函数作为情感分类器,对步骤四得到的歌词特征向量进行有监督的情感分类训练;最终生成中文歌曲情感分类器,用来对歌词进行情感极性的判定。
2.根据权利要求1所述的基于层次注意力机制的歌词情感分类方法,其特征在于:步骤一中,构建中文歌词数据集,通过网络爬虫技术在互联网各大音乐网站爬取中文歌词共1851首,按照VA情感模型进行情感极性标注,通过音乐网站的歌单标签作为情感极性标注的依据,并通过多名音乐人士进行校对;训练集、验证集合、测试集按照8:1:1的比例进行划分。
3.根据权利要求1所述的基于层次注意力机制的歌词情感分类方法,其特征在于:步骤二中,歌词编码层用来对分段后的歌词进行特征向量编码;首先,对段落中的词语进行词嵌入编码,获取词语的向量表示;然后将每个词向量依次拼接,构成段落的向量表示;最后,使用双向长短期记忆网络BiLSTM进行序列化处理,学习上下文之间的语义关联;
词向量表示指的是将词语转换为计算机理解的数值或矩阵;
歌词的段落较长,使用BiLSTM进行文本的序列化处理;BiLSTM由前向和后向LSTM组成,实现文本从前向后以及从后向前编码,关注到文本上下文之间的关联;
对于一段歌词P=[x1,x2,…,xi,…,xn],其中,χi表示段落中词语的词向量编码,i∈(1,n),n为歌词长度;使用BiLSTM分别对歌词进行从前向后以及从后向前学习,获取前向与后向的编码并整合,得到歌词段落的初始特征向量,计算过程如式(1)-式(4)所示;
h=[h1,h2,...,hi,...,hn] (4)
其中,表示前向LSTM,表示后向LSTM,表示t时刻前向LSTM单元的隐藏层输出,表示t时刻后向LSTM单元的隐藏层输出,将二者拼接后得到t时刻对应的第i个词语的输出向量hi,将所有时刻的输出拼接,得到歌词段落的特征向量h。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210059578.9/1.html,转载请声明来源钻瓜专利网。