[发明专利]基于注意力的多交互网络的多模态图像分类系统及方法有效
申请号: | 202210536123.1 | 申请日: | 2022-05-18 |
公开(公告)号: | CN114638994B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 袭肖明;杨霄;刘新锋;聂秀山;张光;尹义龙 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/40 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 交互 网络 多模态 图像 分类 系统 方法 | ||
1.基于注意力的多交互网络的多模态图像分类系统,其特征在于,包括:
特征向量提取模块用于从多模态图像提取关键特征信息;
U-net特征提取模块,用于接收关键特征信息,采用U-net多分辨率特征融合的思想,将关键信息特征中的低级视觉特征与高级语义特征进行融合得到第一特征图集合;
先验模块用于接收第一特征图集合,对第一特征图集合采用修正余弦函数计算多模态图像之间的相关性得分,对相关性得分高的区域分配高的注意力,得到第二特征图集合;
通道交互模块用于接收第二特征图集合,将第二特征图集合在信道维度上对多个特征进行模态融合,得到第三特征图集合;
模态融合模块用于接收第三特征图集合,对第三特征图集合中的特征图进行卷积得到多模态特征矩阵,并将多模态特征矩阵相乘,分别得到对应的特征,计算特征之间的相似度,并对相似度区域特征进行加权后添加至原始特征中,得到第四特征图集合;
图像分类模块用于基于训练好的分类网络模型对第四特征图集合进行分类,计算对应的类别得分,类别得分的最大值所对应的类别即为最终的分类结果。
2.如权利要求1所述的基于注意力的多交互网络的多模态图像分类系统,其特征在于,所述系统还包括数据预处理模块,所述数据预处理模块包括数据增强处理模块、数据集划分模块以及归一化处理模块。
3.如权利要求1所述的基于注意力的多交互网络的多模态图像分类系统,其特征在于,所述先验模块用于通过构建相关性学习模型来学习多个模态的相似性,具体包括:
采用修正余弦函数计算多个模态之间的相关性得分;
根据相关性得分筛选相关性高的区域分配更高的注意力。
4.基于注意力的多交互网络的多模态图像分类方法,其特征在于,包括如下步骤:
从多模态图像提取关键特征信息;
接收关键特征信息,采用U-net多分辨率特征融合的思想,将关键信息特征中的低级视觉特征与高级语义特征进行融合得到第一特征图集合;基于第一特征图集合,对第一特征图集合采用修正余弦函数计算多模态图像之间的相关性得分,对相关性得分高的区域分配高的注意力,得到第二特征图集合;基于第二特征图集合,将第二特征图集合在信道维度上对多个特征进行模态融合,得到第三特征图集合;
基于第三特征图集合,对第三特征图集合中的特征图进行卷积得到多模态特征矩阵,并将多模态特征矩阵相乘,分别得到对应的特征,计算特征之间的相似度,并对相似度区域特征进行加权后添加至原始特征中,得到第四特征图集合;
基于训练好的分类网络模型对第四特征图集合进行分类,计算对应的类别得分,类别得分的最大值所对应的类别即为最终的分类结果。
5.如权利要求4所述的基于注意力的多交互网络的多模态图像分类方法,其特征在于,在进行提取关键特征信息前,对多模态图像进行预处理,包括数据增强处理、数据集划分以及归一化处理。
6.如权利要求4所述的基于注意力的多交互网络的多模态图像分类方法,其特征在于,所述基于各自模态关注区域的特征进行相似度计算通过构建相关性学习模型来学习多个模态的相似性,具体包括:
采用修正余弦函数计算多个模态之间的相关性得分;
根据相关性得分筛选相关性高的区域分配更高的注意力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210536123.1/1.html,转载请声明来源钻瓜专利网。