[发明专利]一种基于多模态融合的中文歌曲情感分类方法有效
申请号: | 201910879131.4 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110674339B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 朱贝贝;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/683;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 中文歌曲 情感 分类 方法 | ||
本发明公开了一种基于多模态融合的中文歌曲情感分类方法,首先从音频信号中获取声谱图,并提取音频低层特征,然后基于LLD‑CRNN模型进行音频特征学习,从而得到中文歌曲的音频特征;对于歌词和评论信息,首先构建音乐情感词典,然后以该词典为基础,构造基于情感强度和词性的情感向量,从而得到中文歌曲的文本特征;最后使用决策融合和特征融合两种方法进行多模态融合,得到中文歌曲的情感类别。本方法基于LLD‑CRNN的音乐情感分类模型,该模型结合使用声谱图和音频低层特征作为输入序列。LLD集中在时域或频域,对于时、频特性关联变化的音频信号,而声谱图是音频信号在频率上的二维表示,在信息量上损失较少,因此,LLD和声谱图可以实现信息互补。
技术领域
本发明涉及自然语言处理技术、音频信号处理技术和深度学习领域,尤其涉及一种基于多模态融合的中文歌曲情感分类方法。
背景技术
随着计算机网络与多媒体技术的快速发展,互联网上涌现了越来越多的文本、图像、音频和视频等多媒体数据。音乐是多媒体数据的重要组成部分,面对音乐作品数量的爆炸式增长,音乐种类的不断增多,音乐作品的组织和检索问题受到了专家学者的广泛关注。音乐是情感的载体,情感是音乐最重要的语义信息,情感词是在检索和描述音乐时最常用的词,因此,基于情感进行音乐分类能够有效提高音乐检索的效率,并逐渐成为研究热点。音乐情感分类属于音乐心理学和计算机学科的交叉领域,相关的研究具有重要意义。目前,音乐情感分类广泛应用于音乐数据库管理、音乐检索、音乐推荐和音乐治疗等领域。
采用纯人工的方式标记音乐情感效率较低,并且质量无法保证,难以满足海量音乐作品的情感标注需求,因此,越来越多的专家开始研究音乐情感自动识别技术。迄今为止,音乐情感自动识别的研究已有十几年的历史,国内外众多学者都对该领域做了深入的研究,并取得了一定成果。传统的音乐情感分类方法多数侧重于歌词或音频进行分析,但是单模态的数据只能获取对象的部分特性,仅利用单一模态的数据进行分类存在一定程度的信息缺失。近年来,越来越多的研究者开始关注多模态融合技术,该技术也为音乐情感分类问题提供了新的解决方案。
认知心理学研究表明,人脑通过对不同感官的信息进行综合判断,最终产生认知结果,这也表明了不同感官的信息具有互补性和相关性。“模态”即“感官”,多模态融合即将视觉、听觉、触觉、嗅觉等多种感官融合。相同的语义信息可以用音频、文本、图像等信息共同表达出来,例如,老虎的吼声,描述老虎的文字和包含老虎的图片均可以表达“老虎”这一语义概念。与传统的单模态研究相比,多模态信息具有更丰富的语义信息,表达效率和信息完整度更高。一般来说,基于多模态融合的分类方法比基于单一信息源的分类方法具有更好的分类性能。音乐主要由音频信号与歌词文本这两种模态的数据组成。音频中往往蕴含着情感的表达,密集型的节奏令人心情愉悦,而松散型的节奏令人心情宁静。同时,文字是人们表达情感的一种方式,歌词文本也可以体现音乐表达的情感,因此,结合音频和歌词文本将可以有效提高音乐情感分类的准确率。
发明内容
针对上述问题,本发明的目的在于采用了一种基于多模态融合技术的音乐情感分类方法,通过结合音频、歌词和音乐评论对中文歌曲的情感进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910879131.4/2.html,转载请声明来源钻瓜专利网。