[发明专利]一种基于模态空间同化和对比学习的多模态情感分类方法在审
申请号: | 202211139018.0 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115310560A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 孔万增;杨宇涛;唐佳佳;倪斌斌;戴玮成;朱莉 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空间 同化 对比 学习 多模态 情感 分类 方法 | ||
1.一种基于模态空间同化和对比学习的多模态情感分类方法,其特征在于包括以下步骤:
步骤(1)、获取多模态数据:
对多模态特征信息进行预处理,抽取音频模态、视频模态和文本模态的初级表征Ht、Ha、Hv;
步骤(2)、构建TokenLearner模块获得引导向量:
每个模态m∈{t,a,v}均设有TokenLearner模块,t,a,v分别为文本、音频、视频模态;并且这些TokenLeaner模块在每一次引导中都会被重复使用;所述TokenLearner模块通过模态的多头注意力得分计算出一个权重图,然后根据该权重图来得到一个新的向量Zm:
Zm=αm(MultiHead(Hm,Hm))Hm 式(4)
其中αm是一层一维卷积并在卷积之后添加softmax函数,和分别是Q,K的权重,dk表示Hm的维度,n代表多头的数量;MultiHead(Q,K)表示多头注意力得分;headi表示第i头注意力得分;Attention(Q,K)是计算注意力得分的函数;
为了确保在Zm中的信息代表其对应模态的补充信息,添加正交性约束对每个模态的TokenLearner模块进行训练,减少冗余的潜在表示,并鼓励TokenLearner模块对多模态的不同方面进行编码;
所述正交性约束定义为:
其中代表平方弗罗贝尼乌斯范数;
通过计算Zm的加权平均值,以获得引导向量Z,其可公式如下:
其中wm是权重;
步骤(3)、引导模态靠近解空间:
根据步骤(2)得到的引导向量Z并行指导三个模态所处的空间往解空间靠近;在每一次的引导过程中,引导向量Z会根据当前三个模态所处空间的状态进行实时更新;更具体地说,对于第l次引导,对每个模态的指导后矩阵表示如下:
其中θm表示Transformer模块的模型参数,表示和Zl的拼接,并且引导向量Z对每个模态的引导由Transformer来完成;
将公式(7)拓展后具体所示:
其中MSA表示多头自注意模块,LN表示层归一化模块,MLP表示多层感知器;
提取经过L次引导得到的三个模态指导后矩阵中最后一行数据,并将它们拼接成一个多模态表示向量Hfinal;L表示最大引导次数;
步骤(4)、通过监督对比学习约束多模态表示向量Hfinal:
复制多模态表示向量Hfinal的隐藏状态,以形成增广表示并去除它的梯度;基于上述机制,对于将N个样本进行扩展后,就有2N个样本;表示如下:
其中表示监督对比学习的损失函数,是多视图批次中任意样本的索引,τ∈R+表示用于控制类别分离的可调系数,P(i)是与i不同但具有相同类别的样本集,并且A(i)表示除去i之外的所有索引;SIM()是用于计算样本之间相似性的函数;
步骤(5)、获取分类结果:
多模态表示Hfinal通过全连接层获得最终预测实现多模态情感分类。
2.根据权利要求1所述方法,其特征在于训练过程中,使用均方误差损失来估计训练期间的预测质量:
其中y表示真实标签;
整体损失由和的加权和构成,表示如下:
其中和分别表示情感分类任务的损失函数,正交约束损失函数以及监督对比学习的损失函数,α、β、γ分别是和的权重。
3.根据权利要求1所述方法,其特征在于步骤(1)中对文本模态预处理采用BERT模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211139018.0/1.html,转载请声明来源钻瓜专利网。