[发明专利]一种多模态密集预测的深度信息传输模型的构建方法有效
申请号: | 202011307818.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112396000B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 吴贺丰;张小雨;刘凌波;林倞;王青 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 密集 预测 深度 信息 传输 模型 构建 方法 | ||
本发明提供一种多模态密集预测的深度信息传输模型的构建方法,该方法首先,构建多个子网络是用于RGB图或热图表征学习,再构建一个子网络用于为模式共享;然后,构建一个信息聚集‑分布模块IADM,用于完成平移不变的信息提取以及信息聚合传输、信息分布传输。本发明通过学习多模态对齐表示,建立一个包含信息聚合分布模块的多模态密集预测框架,能够充分捕捉不同模态之间的互补信息,很好的完成信息整合。在各种多模态密度预测任务中,该方案显示出了有效性和通用性。
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种多模态密集预测的深度信息传输模型的构建方法。
背景技术
自动生成像素层级映射的密度预测是计算机视觉任务的基础问题,其在人群计数,突出目标检测、道路分割等方面的应用效果已引发广泛关注。密度预测需求丰富的信息来完成像素层级的推理,是一项具有挑战性的技术问题。目前各种任务受益于多模态数据的互补信息,即除RGB图像外,其它形式的一些数据可以提供补充信息,例如热影像和深度图像等。
RGB-T(热图像)人群计数。之前的大多数方法利用光学相机捕获的RGB图像信息进行计数估计。然而,在很多情况下(如曝光过度、模糊、黑暗),光学信息很差,上述方法通常不能准确估计行人的数量。使用深度图像作为辅助信息,同时对人头进行计数和定位一定程度上解决了这一问题。但是,深度传感器的距离测量存在一定的误差,特别是在室外场景中,测量范围通常小于20米。因此,深度图像也不能为人群计数提供足够的信息。热传感器可以在野外精确测量人体表面温度,而产生的高对比度热图象对黑暗、远处模糊和杂波背景都很强健。因此,热图像对人群计数非常有利。RGB-D(深度图像)突出目标检测。作为一项经典的计算机视觉任务,显著目标检测的目的是识别给定图像中的视觉显著目标,通常被建模为像素级的神学院分类问题。文献中有很多模型被提出用于RGB显著性检测。但是,只能依靠RGB图像的信息这些方法可能无法从杂乱的背景中区分出显著的特征。特别是当它们外表相似的时候。最近一些技术方法将RGB图像和深度图像共同处理这个任务,因为深度信息可以使对象的边缘更明显。在这些模型中,不对称问题没有得到显式处理。RGB图像和深度图像的互补信息得不到有效的捕获。RGB-GPS道路分割。城市道路地图的自动构建在导航和交通中起着重要的作用。道路分割作为道路分割的关键组成部分,得到了广泛的研究。传统的方法可以分为基于图像的方法和基于轨迹的方法。通常采用图像分割技术从航拍图像中提取交通道路。但是,当遇到以下情况时,这些方法表现不佳。首先,一些道路被树木和建筑物遮挡,很难从航拍图像中识别它们。其次,一些基础设施(如铁路)与交通道路外观相似,难以通过视觉信息进行区分。基于轨迹的方法利用车辆GPS轨迹提取城市道路。有质量轨迹的区域可以视为潜在的道路。虽然这些方法可以避免视觉缺陷,但也提出了两个挑战。首先,质量轨迹记录可能会出现在一些非道路区域(如停车场)。二是GPS设备定位不精确,噪声点多,误差大。毫无疑问,这两种方法是互补的。然而,很少作品同时使用视觉信息和轨迹信息。直接将航空图像和GPS热图的拼接输入网络,或将其特征在不同层次上融合,由于考虑了不对称问题,无法有效地利用多模态信息。
部分技术仅利用RGB图像的视觉信息,在无约束情况下可能无法识别与任务相关的对象。例如光照条件较差的RGB图像中难以检测到行人,严重的图像遮挡问题如树木遮挡交通道路导致其难以从RGB图像中提取信息。在使用多模态的技术方法中,仍存在两个重要问题。其一,每种模式都是一个特殊的领域,多模态数据自然会存在或多或少的领域失调,传统方法未能显式处理域差距,因此无法很好的学习互补信息。其二,不同传感器捕获的多模态数据及其位置通常是非对齐的。领域和位置的非对称等问题,都导致了多模态的模型无法进行信息的正确整合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011307818.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:反馈式匹配预测多级实时压缩系统及方法
- 下一篇:环形件闭路磁轭磁粉探伤机