[发明专利]一种基于门机制多模态融合的情感分析方法有效
申请号: | 202011468475.5 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112597841B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 李太豪;廖龙飞;刘昱龙;裴冠雄 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06V10/80;G06V10/82;G06N3/0464;G10L25/63 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机制 多模态 融合 情感 分析 方法 | ||
本发明涉及到多模态情感分析领域,提出了一种基于门机制多模态融合的情感分析方法,具体为:首先获取多模态情感分析数据,针对不同模态特点提取特征表示;通过不同模态特征的表示获得每个模态特征对应的模态信息门;使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;拼接不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。本发明可以更好地增强主体情感表达模态的作用,削弱冗余情感表达模态的负面影响,帮助多模态特征情感识别更加精确。
技术领域
本发明涉及多模态情感分析领域,具体为一种基于门机制多模态融合的情感分析方法。
背景技术
情感对于人类的感知、记忆、学习、创造、决策和社交都有很重要的作用,情感识别与理解技术也是人机交互的基础性技术之一。情感识别的本质是利用计算机对人类的情感状态进行自动识别、判断和分类的过程。相对于单模态情感识别,多模态将不同模态的信息特征进行互补融合,从而能够更加全面且准确地识别出情感类别。正因如此,多模态融合的情感识别研究正日益受到重视,目前的研究热点已经从单模态转移到实际应用场合下的多模态情感识别。如何进行有效的多模态情感识别具有重要的应用价值,充满了挑战性。
当前的研究中,现有的多模态特征融合策略都是偏浅层的特征融合方案,没有衡量不同模态间的差异性和互补性对最终融合结果造成的影响,容易造成联合特征表达的判别性不足导致最终情感识别效果不佳,难以具体应用。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种基于门机制多模态融合的情感分析方法,其具体技术方案如下。
一种基于门机制多模态融合的情感分析方法,包含以下步骤:
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示;
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门;
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。
进一步的,所述步骤1具体包括:
步骤1.1,通过采集一般电影、电视剧视频数据,对视频数据进行剪辑并进行人工情感标注,分离出其中对应单模态数据:通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过所述人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据。
步骤1.2,根据采集得到的不同模态的数据的特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011468475.5/2.html,转载请声明来源钻瓜专利网。