[发明专利]注意力引导多模态特征融合的图像语义分割方法及装置在审
申请号: | 202111658857.9 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114372986A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 钦闯;邹文斌;田时舜;李霞;邹辉 | 申请(专利权)人: | 深圳大学;慧视创新(深圳)有限公司 |
主分类号: | G06T7/10 | 分类号: | G06T7/10;G06V10/40;G06K9/62;G06V10/80 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 廖厚琪 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注意力 引导 多模态 特征 融合 图像 语义 分割 方法 装置 | ||
根据本发明实施例公开的注意力引导多模态特征融合的图像语义分割方法及装置,对提取的彩色图特征以及深度图特征进行混合;在通道和空间两个维度上对混合特征进行精炼并叠加到输入特征中,消除深度图噪声,自适应对齐两部分特征;为进一步互补地融合两部分特征,通过获取两种特征对应位置的重要程度,自适应学习彩色图和深度图之间的互补关系,实现多模态特征的互补融合;为了在解码阶段引入重要的空间细节信息,采用多层特征融合方法引入编码阶段的融合特征,增加更多细节信息,使得分割时有更多信息关注到边界区域,实现边界区域的精细分割,从而生成更为精准高效的语义分割图。由此,有效提高了RGB‑D图像语义分割模型的鲁棒性及分割精度。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种注意力引导多模态特征融合的图像语义分割方法及装置。
背景技术
语义分割旨在为图像中的每个像素点进行准确分类,是一种像素级别的分类方法,广泛应用于以视觉为基础的自动驾驶、人机交互、医疗图像分割、三维地图重构等多个领域。通过准确的像素分类进而有效的获取图像中的场景信息,分割的结果不仅可以得到各个目标在图像中的具体位置,还能进一步得到各个目标的类别及其所处于的状态,利用获取的图像信息使计算机自动理解场景是计算机视觉中最具挑战性的任务之一。近年来,由于深度相机的出现,如Intel的Realsense相机,微软的Kinect相机,深度相机为获取图像的深度信息提供了便捷,深度信息也被广泛用于提高语义分割性能。对比于彩色图,深度信息在提供语义信息的同时还提供实际场景物体尺寸与几何信息,进一步提升语义分割的性能。
对于RGB-D的语义分割,目前很多方法主要通过融合RGB图特征和深度图特征,生成更具有表征能力的特征来提高RGB-D图像语义分割的性能,一般采用编解码的结构,在该种结构中,根据融合的阶段可分为前期融合,中期融合和后期融合。这些方法采用的融合模块大多是对深度图特征和彩色图特征直接进行融合,未能对深度信息进行充分利用,实现彩色图特征和深度图特征的互补融合。同时,由于Realsense等深度相机的成像会受到光照、滑面、硬件干扰等因素的影响,导致深度图像出现边界模糊和空洞区域大等问题,直接对两种模态的特征进行融合的方法未能消除掉深度信息存在的噪声,在网络模型中引入了干扰特征,最终导致分割精度的下降,具有较差的鲁棒性。
发明内容
本发明实施例的主要目的在于提供一种注意力引导多模态特征融合的图像语义分割方法及装置,至少能够解决相关技术中提供的RGB-D图像语义分割模型所存在的鲁棒性差、分割精度低等问题。
为实现上述目的,本发明实施例第一方面提供了一种注意力引导多模态特征融合的图像语义分割方法,应用于包括特征提取网络、多模态特征对齐网络、跨模态特征融合网络以及多层特征融合解码网络的整体神经网络,该方法包括:
通过所述特征提取网络对彩色图以及相应深度图分别进行特征提取处理,得到彩色图特征以及深度图特征;
通过所述多模态特征对齐网络将所述彩色图特征以及所述深度图特征沿通道维度连接之后,进行卷积操作得到混合特征,并基于所述混合特征在通道维度和空间维度上对所述彩色图特征以及所述深度图特征进行对齐,得到对齐后的彩色图特征以及对齐后的深度图特征;
通过所述跨模态特征融合网络分别获取所述对齐后的彩色图特征各个位置点的重要程度的第一权重矩阵,以及所述对齐后的深度图特征各个位置点的重要程度的第二权重矩阵,然后将所述第一权重矩阵与所述对齐后的彩色图特征融合以及将所述第二权重矩阵与所述对齐后的深度图特征融合后再进行叠加处理,得到融合特征;
通过所述多层特征融合解码网络逐层将所述融合特征进行卷积操作以及上采样处理,输出语义分割图。
为实现上述目的,本发明实施例第二方面提供了一种注意力引导多模态特征融合的图像语义分割装置,应用于包括特征提取网络、多模态特征对齐网络、跨模态特征融合网络以及多层特征融合解码网络的整体神经网络,该装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学;慧视创新(深圳)有限公司,未经深圳大学;慧视创新(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111658857.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:鱿鱼白片智能切割计算方法、装置、设备及存储介质
- 下一篇:学习数据处理方法