[发明专利]一种基于注意力机制的自适应融合的多模态情感分类方法有效
申请号: | 202110703330.7 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113435496B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 蒋斌;袁梦 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 梁小林 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 自适应 融合 多模态 情感 分类 方法 | ||
1.一种基于注意力机制的自适应融合的多模态情感分类方法,包括学习双向上下文信息的预训练模型,即BERTbase模型,该模型是具有768个隐藏单元和12个注意头的前馈网络,其特征在于,包括以下步骤:
步骤一,给定一个单词序列X=[x1,x2,....xN],N是序列的最大长度,将单词序列X输入到预训练模型中进行编码,把编码器最后一层的输出作为句子隐藏状态hi:
hi=Bert(Xi)
其中xi是单词、段以及位置嵌入的总和,对于文档中附加的多张图像,将其统一调整为224*224尺寸,通过去掉残差网络的最后一个完全连接层,用最后一个卷积层的输出作为图像Ij的表示;
aj=ResNet(Ij)
图像表示aj是从图像Ij编码得到的2048维向量;
步骤二,从不同的角度捕捉句子序列中与情感相关的特征,先从视觉的角度,用图像信息增强文档中与其相关的句子,包括利用非线性转换将视觉特征嵌入aj和句子级隐藏状态hi投影到同一空间;
再利用矩阵相乘学习句子隐藏状态和特定图像的相关程度,并施加softmax函数得到权重αj,i,加权求和后得到视觉增强的句子表征tj;
pj=relu(Wpaj+bp)
qi=relu(Wqhi+bq)
tj=αj,ihi
其中,Wp、Wq、bp和bq为多层感知机的权重和偏置,采用relu非线性激活函数,其中αj,i捕捉到视觉表示和句子隐藏状态的相关性;
步骤三,含有情感信息的句子相对于描述事实的句子更为重要;因此,在句子层级采用自注意机制,让句子级隐藏状态hi学习句子和句子之间的关系,以获得句子表示的相对重要性,使用softmax对其进行归一化得到其注意权重βi,最后,将注意权重和句子级隐藏状态hi加权求和后得到文本自增强的句子表征si;
其中,Ws、bs和为各自的权重和偏置,其中的βi反映了文档中每个句子不同的重要程度;
步骤四,依靠句子语境来学习视觉情感特征;根据步骤二得到视觉增强后的句子表示tj,将步骤三中文本自增强后的句子表示si作为上下文,使其引导图像增强的句子更多地关注与情感相关的特征;上下文引导互补融合网络CGCFN主要包括上下文引导模块CGM与多模态互补融合模块MCFM;
通过上下文引导互补融合网络CGCFN中,核心模块之一的上下文引导模块CGM;该模块主要依靠上下文引导注意机制,通过上下文表征让视觉增强后的句子学习视觉和文本在情感方面的共同特征,获得视觉潜在情感特征;将上下文表征si和图像相关的句子tj借助不同的参数矩阵,投影到同一空间,通过计算二者的相关程度,得到视觉增强句子的情感权重系数γj,i,进一步得到视觉情感表征ci;计算情感权重系数的计算过程如下:
uj=tanh(Wutj+bu)
vi=tanh(Wvsi+bv)
ci=γj,itj
其中,Wu∈Rcxe,Wv∈Rcxe,bu∈Rc,bv∈Rc分别为权重和偏置参数,采用sigmoid函数,γj,i体现了上下文表征引导视觉增强的句子捕捉与情感信息的相关性;
步骤五,通过学习视觉和文本之间的交互,动态调整模态间的互补或增强关系;当图像和文本相关性较高时,利用二者的相关性加强视觉情感表征tj;当图像和文本相关性不高时,依靠文本增强后的句子表征si作为互补特征,为此,通过上下文引导互补融合网络CGCFN中,核心模块之一的多模态互补融合模块MCFM;该模块由门函数和自注意机制构成,门函数学习跨模态之间的交互,赋予视觉情感特征不同权重,动态转换模态间关系,自注意机制融合文本特征和视觉情感特征,获得最终的多模态表示;具体地,首先,计算图像和文本的相关程度,通过一层具有非线性转换的神经元将视觉特征嵌入aj和文本表示hi投影到同一空间,之后将二者相乘并通过带激活函数sigmoid的非线性转换得到模态门函数gj,i,然后,让门函数gj,i与视觉情感表征ci通过按元素乘的方法学习二者的相互作用,与此同时,再利用元素加的方法加上文本自增强后的句子si,得到自适应的多模态情感表征di;
ej=tanh(Weaj+be)
fi=tanh(Wfhi+bf)
其中,We、Wf、be和bf为对应的权重和偏置,表示逐元素相乘,学习视觉和文本的相关性的门函数gj,i利用反向传播动态调整两种模态表示的关系,当图像和文本紧密相关时,gj,i会很大,视觉情感表征ci对多模态表示的贡献更大;相反,当图像和文本对应关系弱的时候,gj,i会很小,确保当前的多模态表示更多依赖文本自身的句子表征si;
步骤六、将步骤五中的多模态情感表示di输入到多模态互补融合模块MCFM中的自注意机制中,进行有效的多模态融合,得到最后与情感分类任务相关的多模态表示d;此外,预训练模型BERT的输入是序列,每个序列的第一个标记都是一个分类标记[CLS],分类标记[CLS]对应的最终隐藏状态学习了全局信息,常作为汇聚后的序列表示用在分类任务中;因此,将dcls输入到全连接层和softmax函数中,得到最终的情感预测值φ;
ki=Wk(Wddi+bd)
φ=softmax(Wcdcls+bc)
其中,Wd、Wk和bd是多层感知机的权重和偏置,δi体现了不同模态的情感表示对最后的多模态表征作出的贡献;
步骤七,多模态情感预测流程描述完毕;模型以端到端的方式进行训练,通过最小化交叉熵损失函数:
其中,l是文档d的真实标签值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110703330.7/1.html,转载请声明来源钻瓜专利网。