[发明专利]跨模态知识蒸馏的方法、系统、电子装置和存储介质在审
申请号: | 202211239339.8 | 申请日: | 2022-10-11 |
公开(公告)号: | CN115953586A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 李镇;颜旭;占贺深;郑超达;高建焘;崔曙光 | 申请(专利权)人: | 香港中文大学(深圳)未来智联网络研究院 |
主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/764;G06V10/82;G06T15/00;G06N5/02 |
代理公司: | 深圳尚业知识产权代理事务所(普通合伙) 44503 | 代理人: | 王利彬 |
地址: | 518000 广东省深圳市福田区福保街道福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 跨模态 知识 蒸馏 方法 系统 电子 装置 存储 介质 | ||
本发明公开了一种跨模态知识蒸馏的方法、系统、电子装置和存储介质,方法包括:渲染CAD模型或从不同视角在点云上进行透视投影,获得点云对应的3D图像的多个视图的辅助图像;将所有的辅助图像输入到图像网络中,获得3D图像的全局特征;在点云和全局特征之间进行特征增强和分类器增强,将3D图像的图像特征蒸馏至点云。本发明利用感知二维图像的全局特征,并将全局特征蒸馏至点云,能够获得更具辨别性的点云表示,解决了图像和点云之间的跨模态学习障碍的问题,另外,本发明只需要将点云作为输入数据,在没有图像输入的情况下,仍然能够进行点云的形状进行推理和识别,提升了推理时模型对目标模态的性能。
技术领域
本发明涉及深度学习技术领域,尤其涉及一种跨模态知识蒸馏的方法、系统、电子装置和存储介质。
背景技术
点云作为一种基本的3D表示方式,在各种应用中受到越来越多的关注,如自动驾驶、机器人感知、工程测绘等。点云通常由三维空间中稀疏无序的点组成,在提供空间信息和几何信息方面具有优势,但是点云的特征保留了点云稀疏且无纹理的特征,这与二维图像中密集规则的像素数组有明显区别:二维图像通常具有丰富的色彩和细粒度的纹理,但是缺乏深度和形状方面的信息。在过去,学者们将对二维图像和三维点云的理解视为两个独立的问题。然而随着科技发展,无人驾驶汽车(或无人机)等载体开始同时搭载摄像机和LiDaAR等多种传感器,实际生产生活中亟需一种方式将对于二维图像和三维点云两者结合起来。
基于点云的3D形状识别。这类方法将原始点云作为输入直接处理(也称为基于点的方法)。基于点云的3D形状识别由PointNet开创,对每个点使用多层感知机(MLP)和最大池化层来近似置换不变集函数。随后为了提取局部特征,采用了一种基于点的局部聚合算子。具体来说,这类方法从原始点云中采样多个子点,然后通过局部聚合算子聚合每个子点的相邻特征。基于点云的3D形状识别在提供空间和几何信息方面更胜一筹,但只保留了稀疏和无纹理的特征。
基于图像的3D形状识别。由于点云是不规则且无序的,因此一些工作考虑将3D形状从不同视点投影到多个图像中(也称为基于视图的方法),然后利用成熟的2DCNN来处理3D数据。多视图学习的一项开创性工作是MVCNN。它使用共享的CNN并行提取每个视图的特征,然后通过视图级别的最大池化层进行聚合。大多数后续工作都提出了更有效的模块来聚合视图级特征。例如,其中一些通过考虑视图之间的相似性来增强聚合特征[11,56],而另一些则关注视点关系。基于图像的3D形状识别很容易获得丰富的色彩和细粒度的纹理,但在深度和形状感知方面存在歧义。
要解决上述问题,一种直接的方法是融合二维图像和三维点云,即根据特定任务设计特殊深度学习网络架构来融合两种数据表示的信息。然而,利用额外的图像表示需要设计一个多模态网络,它在训练和推理阶段都需要额外的图像输入。此外,额外图像的利用通常需要强大的算力,而且成对图像在推理过程中很难获得。因此,多模态学习在很多方面都遇到了瓶颈。
之前的多模态学习受到知识蒸馏(knowledge distillation,KD)的启发,通常使用T-S(teacher-student)框架来对点云和图像学习到的特征进行匹配。在一个常见的KD问题中,老师网络(teacher model)和学生网络(student model)通常在具有相同分布的相同数据集上进行训练,并且老师网络通常比学生网络取得更好的成绩。然而,实际情况是,点云和图像所表示的物体特征具有差异性,图像和点云分析模型往往学习不同的特征表示和概率分布,它们通常是互补的。直接对这些特征进行匹配通常无法获得良好的提升,甚至有时候会产生反面效果。此外,以前的知识蒸馏方法将编码器和分类器视为一个整体架构,因为教师网络和学生网络通常具有相同的组件。而点云卷积网络与图像卷积网络的编码器有明显的不同,但具有相同的分类器设计;因此就造成了图像和点云之间的跨模态学习障碍,并且推理时模型对目标模态,即3D点云的性能较低。
发明内容
本发明的主要目的在于提供一种跨模态知识蒸馏的方法、系统、电子装置和存储介质,旨在解决现有技术中图像和点云之间的跨模态学习障碍,并且推理时模型对目标模态性能较低技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学(深圳)未来智联网络研究院,未经香港中文大学(深圳)未来智联网络研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211239339.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新能源材料领域智能工厂排程系统
- 下一篇:一种保险佣金核算方法和系统