[发明专利]考虑模态间语义距离度量的多模态融合分类优化方法有效
申请号: | 202110770185.4 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113343974B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 王剑锋;马世乾;余金沄;王坤;赵晨阳;吴文炤;刘剑;秦亮;刘开培 | 申请(专利权)人: | 国网天津市电力公司电力科学研究院;国网天津市电力公司;武汉大学;国网信息通信产业集团有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/40;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 韩燕 |
地址: | 300392 天津市西青*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 考虑 模态间 语义 距离 度量 多模态 融合 分类 优化 方法 | ||
本发明提供一种考虑模态间语义距离度量的多模态融合分类优化方法。针对模态信息融合中构建统一语义下的特征子空间存在的融合效果不稳定、改善作用比较有限的问题,本发明基于改进的CBAM注意力机制进行自适应特征细化,采用横向结构,聚合空间及通道维度上的有效信息,进行局部语义特征加强;在此基础上,构建基于模态间语义距离的语义逼进模型,引入对模态间语义一致性判断的显式度量,减小相同语义特征对之间的分布距离,同时扩大不同语义特征对之间的分布距离;最终结合考虑模型分类性能目标与模型语义逼近目标,进行多模态信息下的线性融合,从而使模型更好地搜寻到公共特征子空间,提高多模态融合模型诊断的效能。
技术领域
本申请涉及多模态信息融合领域,具体地涉及一种考虑模态间语义距离度量的多模态融合分类优化方法。
背景技术
模态是指事件发生或客观物体存在的形态。为了更好地利用人工智能来帮助我们感知和理解世界,就需要解释和推理出多模态数据中有用的信息和特征。多模态融合技术旨在实现多领域数据的异质互补,建立一个可以处理和关联多种模态之间交互信息的框架,从早期基于视听语音识别的研究到近期新兴的语义和视觉领域应用,多模态信息融合逐渐发展成一个有巨大挖掘潜力和研究价值的新兴科研方向。然而,基于深度学习的多模态融合技术虽然能够学习不同模态数据的深层特征表达,但是由于模态间的差异大小和影响因子的不同,目前现有技术中还存在许多亟待解决和突破的难题:一方面,诸如特征的直接拼接、点积、相加等常见的特征融合方法,虽实现简单,但是多模态数据间存在“语义鸿沟”的问题,导致融合效果并不稳定,改善作用也比较有限;另一方面,由于不同模态特征含义不同,在普通特征空间中存在模态信息互相干扰的情况,因此建立具有统一语义表示的特征子空间较为困难,现有技术缺乏对有效融合信息选择以及模态间语义一致性判断的显式度量。
发明内容
为了克服现有技术的不足,本发明基于改进的CBAM注意力机制进行自适应特征细化,将通道注意力模型与空间注意力模型进行横向合并,聚合空间及通道维度上的有效信息,进行局部语义特征加强;在此基础上,构建基于模态间语义距离的语义逼进模型,引入对模态间语义一致性判断的显式度量,减小同类语义特征对之间的分布距离,同时扩大不同类语义特征对之间的分布距离;结合考虑模型分类性能目标与模型语义逼近目标,进行多模态信息下的线性融合,从而使模型更好地搜寻到公共特征子空间,提高多模态融合模型诊断的效能。
为实现上述目的,本发明所采用的解决方案为:
一种考虑模态间语义距离度量的多模态融合分类优化方法,其包括以下步骤:
步骤1:将数据划分为训练集和测试集,对所述训练集进行预处理,获得预处理后的数据,利用深度神经网络对所述预处理后的数据提取数据特征,所述数据特征包括图像特征F1和文本特征F2;
步骤2:将CBAM注意力机制中的通道注意力模型与空间注意力模型进行横向合并,获得改进的CBAM注意力机制,将所述步骤1中获得的数据特征输入所述改进的CBAM注意力机制,获得局部锁定特征空间,所述局部锁定特征空间包括局部锁定图像特征F′1和局部锁定文本特征F′2;
步骤3:构建基于模态间语义距离的语义逼进模型,具体包括以下步骤:
步骤31:根据所述步骤1中获得的训练集构建三元组,所述三元组包括正向对照样本组、锚样本组、负向对照样本组;
步骤32:将所述步骤31中建立的三元组输入所述步骤2中获得的局部锁定特征空间,获得锁定图文对特征;
步骤33:根据所述步骤32中获得的锁定图文对特征,增大不同类语义下所述锁定图文对特征的语义空间距离,缩小同类语义下所述锁定图文对特征的语义空间距离,建立基于模态间语义距离的语义逼进模型;
步骤34:对所述步骤33建立的基于模态间语义距离的语义逼进模型进行约束,获得目标函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司电力科学研究院;国网天津市电力公司;武汉大学;国网信息通信产业集团有限公司,未经国网天津市电力公司电力科学研究院;国网天津市电力公司;武汉大学;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110770185.4/2.html,转载请声明来源钻瓜专利网。