[发明专利]基于文本指导的层级自适应融合的多模态情感分析方法在审
申请号: | 202210743773.3 | 申请日: | 2022-06-28 |
公开(公告)号: | CN114969458A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 郭军军;卢婵 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 指导 层级 自适应 融合 多模态 情感 分析 方法 | ||
1.基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述方法的具体步骤如下:
Step1、准备数据集,对公共数据集数据进行预处理;
Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型,通过特征表示模块对文本、语音、视觉三种模态信息进行表征;通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征;通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征;通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合。
2.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述Step1的具体步骤为:
Step1.1、下载CMU-MOSI数据集,其中CMU-MOSI数据集包括2199个简短的独白视频剪辑,每个视频片段利用人工对其进行情感分数注释,情感分数取值为[-3,+3],代表情感强度的极性从极负向到极正向;其中CMU-MOSI训练、验证和测试集分别包含1284、229、686个视频片段;然后通过预处理形成pkl格式文件。
3.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述Step2中,通过特征表示模块对文本、语音、视觉三种模态信息进行表征具体包括:
Step2.1、多模态语言序列涉及三种模态:文本模态T、语音模态A和视觉模态V,定义输入序列为其中,l{t,a,v}表示模态的序列长度;采用三个独立的子网络获取三种模态的特征表示;对于文本模态,使用预训练的12层BERT来提取句子表征,并将最后一层中的第一个单词向量作为整个句子的表示;利用BERT获得文本模态的特征表示,文本模态特征表示如下:
Ht=BERT(Ft,θbert)
其中,Ht表示文本模态特征,lt表示文本模态的序列长度,dt表示文本模态的特征维度,θbert为BERT模型的网络参数;
对于语音模态和视觉模态,使用单向LSTM来获取两种模态相对应的时间特征,采用最后一层的隐藏时刻状态作为整个序列的表示;Fa,Fv分别通过单向LSTM,得到语音模态特征表示和视觉模态特征表示,语音模态和视觉模态的特征表示如下:
其中,表示语音模态特征,表示视觉模态特征,la,lv分别表示语音模态和视觉模态的序列长度,da,dv分别表示语音模态和视觉模态的特征维度,θlstm为LSTM模型的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210743773.3/1.html,转载请声明来源钻瓜专利网。