[发明专利]基于Valence-Arousal情感空间的图像-音乐匹配系统有效
申请号: | 201910192297.9 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109992677B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 刘洪甫;李灿晨;邱兆林;黄怡璠;季俊涛;任宇凡;张克俊 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/432 | 分类号: | G06F16/432;G06F16/435 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 valence arousal 情感 空间 图像 音乐 匹配 系统 | ||
本发明公开了一种基于Valence‑Arousal情感空间的图像‑音乐匹配系统,该图像‑音乐匹配系统应用时,实现以下步骤:将电子乐谱文件渲染成Wav音频文件,并基于Wav音频文件提取电子乐谱的音频特征,将该音频特征输入至音乐V‑A值提取模型中,经计算获得电子乐谱V‑A值;提取输入图像的面部表情特征和美学特征,将面部表情特征和美学特征输入至图像V‑A值提取模型经计算,获得图像V‑A值;根据图像V‑A值对电子乐谱V‑A值进行搜索匹配,以与图像V‑A值相对最接近的至多10个电子乐谱V‑A值对应的电子乐谱作为匹配结果并输出。该图像‑音乐匹配系统实现l为不同情感种类的图像匹配相对应的情感类型的音乐。
技术领域
本发明属于图像与音乐匹配邻域,具体涉及一种基于Valence-Arousal情感空间的图像-音乐匹配系统。
背景技术
随着多媒体信息内容的爆炸式增长,图像、音乐、视频在我们的生活中扮演着越来越重要的作用。在计算机视觉领域,以往图像处理的相关工作主要是集中在理解图像的认知层,但如今越来越多的图像、音乐、视频成为大众表达情感的载体,因此对其情感层的研究也越来越重要。音乐情感技术也成为音乐研究领域的热点问题,且日益受到音乐相关行业的重视。
我们希望使用一个统一的情感表示模型作为情感的量化标准。目前,对于情感的量化模型主要分为类别模型和连续空间模型。前者通常将情感归类为不同的类别,相应的类别由相关领域的专家进行主观划分,目前没有较为标准化的归类方法。类别模型的确能够让情感标签更具有解释力,但是,在相应的实践工作中人们往往会发现过少的标签无法详细的表示情感,而过多的标签会对参与标注数据的实验参与者造成过大的标注负担。同时,之前的工作也表明使用标签表示情感而避免这些标签之间的歧义性是十分困难的。使用连续空间模型由于使用了维度特征而不是专门的标签来表示相应的情感,能够在一定程度上避免类别模型可能会出现的问题。由于避免了在对于标签内容分配上的主观性,连续空间模型相对于类别模型来说数量较少,存在一些主流且值得考虑的连续空间模型。其中由Russell提出的Valence-Arousal(愉悦度-唤醒度)模型是最早提出的连续空间模型之一,Valence-Arousal指标是一种经典而常用的情感量化指标。其将情感分为愉悦和唤醒两个维度,分别用于表示情感带给人的快乐程度与令人感到的兴奋程度。通过将情感以正面/负面(愉悦度)和给人的兴奋程度(唤醒度)从而将不同的情感使用数值表示。在学术界,数值的相应区间并没有严格的要求。
Thayer的模型作为Russell提出模型的变体,将愉悦的维度解释为具有活力的唤醒和紧张的唤醒的组合,本质上来说是对二维的情感空间的一种变换。除二维模型之外,Mehrabian和Russell提出了Pleasure-Arousal-Dominance模型,给出了另一个维度用于衡量相应情感给人带来的自由或控制感。然而,在实际的研究中,研究者也发现Arousal和Dominance指标之间存在着较强的相关性,因此,仅使用Pleasure和Arousal指标的模型更为广泛地被采用。
相对于包括图片在内的其他多媒体信息,音乐情感识别目前拥有较多的研究,其中涉及到与之相应的数据集标注工作,特征提取工作以及回归模型选取工作。在数据集构建上,除了让受试者直接标注Valence-Arousal特征,也有给出解释性形容词让受试者选取,再将相应的标签换算为相应维度的数值的做法以及制作相应的游戏,通过多人协作方式进行标注的做法。这些做法在一定程度上让受试者更为容易地理解情感模型,同时多人协作的做法通过共识机制增加了数据集的准确性。从特征上来说,多个粒度的特征被讨论,例如从音频文件出发的声学特征,从电子乐谱文件(midi)出发的旋律特征以及从歌词文本中提取的情感特征等。声学特征可使用openSMILE、PsySound等软件进行提取,从整体上来说,这些特征大体上可分为音色、旋律、音调几大类。相比于声学特征,电子乐谱的特征通常包含关于音乐的更多抽象信息。事实上,相关的实验证实从情感识别的角度看,效应从高到低的排列分别是歌词特征、电子乐谱特征以及声学特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910192297.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跨媒体资源检索方法及检索系统
- 下一篇:目标多媒体文件的确定方法及装置