[发明专利]一种基于神经网络的多模态情感分类方法在审
申请号: | 202111294685.1 | 申请日: | 2021-11-03 |
公开(公告)号: | CN113988201A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 王红滨;邢浩;王勇;周连科;何鸣;王念滨 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 多模态 情感 分类 方法 | ||
1.一种基于神经网络的多模态情感分类方法,其特征在于:它包括以下步骤:
S1、提取待预测情感图片中的多模态数据,多模态数据包括图片模态、图片对应的标签词模态和文本模态;
S2、分别提取S1中图片模态、图片对应的标签词模态和文本模态的原始向量;
S3、根据S2得到的各模态的原始向量分别计算各模态的指导向量;
S4、分别对S3中得到的各模态的指导向量进行表征混合,获得各模态的重构特征向量;
S5、利用注意力机制对S4中得到的各模态的重构特征向量进行加权平均,生成融合特征向量;
S6、将S5中得到的融合特征向量输入至情感分类模型中,输出分类结果。
2.根据权利要求1中所述的一种基于神经网络的多模态情感分类方法,其特征在于:所述S1中,提取待预测情感图片中的图片模态、图片对应的标签词模态和文本模态的方法包括:
利用图像训练集对ResNet 101模型进行训练,训练完成后的ResNet 101模型作为标签词预测器,将待预测情感图片输入标签词预测器内,并提取待预测情感图片的标签词,得到图片模态、图片对应的标签词模态和文本模态。
3.根据权利要求2中所述的一种基于神经网络的多模态情感分类方法,其特征在于:图像训练集的输入集是图片,输出集是每张待预测情感图片的标签词。
4.根据权利要求1中所述的一种基于神经网络的多模态情感分类方法,其特征在于:所述S2中,分别提取S1中图片模态、图片对应的标签词模态和文本模态的原始向量的方法为:
利用ResNet 50 V2模型提取图片模态的原始向量
Ii表示图片上任意一个区域,i=1、2、…Nr;
利用Bert模型提取图片对应的标签词模态的原始向量e(af)
e(af)=Bert(af) 公式2
af表示任意一个标签词,f=1、2、…Na;
利用Bert模型提取文本模态的原始向量r(th)
r(th)=Bert(th) 公式3
th表示任意一条文本信息,h=1,2…L。
5.根据权利要求4中所述的一种基于神经网络的多模态情感分类方法,其特征在于:所述Bert模型为distilbert-base-uncased-finetuned-sst-2-english模型。
6.根据权利要求4中所述的一种基于神经网络的多模态情感分类方法,其特征在于:所述S3中,根据S2得到的各模态的原始向量分别计算各模态的指导向量的方法为:
计算图片模态的指导向量vimage
Nr表示图片上区域的个数;
计算图片对应的标签词模态的指导向量vattr;
Na表示标签词的数量;
αf表示任意一个标签词模态的权重值;
计算文本模态的指导向量vtext;
L表示文本的长度。
7.根据权利要求1中所述的一种基于神经网络的多模态情感分类方法,其特征在于:所述S4包括:
分别对S3中得到的各模态的指导向量进行表征混合,获得的各模态权重值总和的平均值
m表示任意一个模态;
n表示除模态m外的其他模态;
表示任意一个模态的权重值;
利用公式7获得各模态的重构特征向量vm,各模态的重构特征向量vm相等:
表示模态m下的第j个原始向量;
Lm表示序列的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111294685.1/1.html,转载请声明来源钻瓜专利网。