[发明专利]三维场景感知方法、装置、电子设备、机器人及介质有效
申请号: | 202110838071.9 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113487664B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 黄锐;李杰 | 申请(专利权)人: | 深圳市人工智能与机器人研究院 |
主分类号: | G06T7/593 | 分类号: | G06T7/593;G06V10/26;G06V10/44;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 温可睿 |
地址: | 518000 广东省深圳市龙岗区坂田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三维 场景 感知 方法 装置 电子设备 机器人 介质 | ||
本申请公开了一种三维场景感知方法、装置、机器人、电子设备及可读存储介质。其中,方法包括分别对待感知三维场景的RGB‑D多模态数据的二维图像数据进行二维语义分割和单目深度估计,得到二维语义特征和二维结构特征;分别对RGB‑D多模态数据的三维深度数据进行三维语义分割和三维场景补全,得到三维语义特征和三维结构特征;将二维语义特征和三维语义特征进行特征融合,得到融合语义特征,将二维结构特征与三维结构特征进行特征融合,得到融合结构特征;基于融合语义特征和融合结构特征,通过语义结构并行交互迭代融合方式对待感知三维场景进行三维语义场景补全,得到待感知三维场景的语义类别信息和三维场景结构信息,实现了高效、精准地三维场景感知。
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种三维场景感知方法、装置、机器人、电子设备及可读存储介质。
背景技术
三维场景感知也可称为三维场景的理解,包括理解三维场景的语义信息和三维结构,三维结构也即几何信息,是计算机视觉研究的核心问题。传统的三维场景的理解通常单独对三维场景的语义信息和三维结构进行的,例如,对场景语义的理解可以通过对二维图像或视频甚至是点云等三维数据的特征进行统计学习等方法来实现,而对三维场景的三维结构的理解可以通过多视图几何的方法从多帧图像或视频通过推理获得,或者是通过激光雷达等三维扫描传感器直接获得。在研究过程中,研究人员越来越意识到,语义信息和三维结构这两个任务其实是相辅相成、互相启发的。例如,物体的三维形状对于识别物体的类别是一种很强的先验,而对于场景语义的理解可以帮助区分同一结构深度或几何平面上的不同物体。因此,将三维场景中的不同物体的语义和场景的三维结构的理解相结合乃至联合学习与推理成为一个重要的研究方向。基于此,三维语义场景补全(3D Semantic SceneCompletion,SSC)技术应用而生。该技术通过对输入数据进行分析,将不完整的数据进行补全并且对三维场景各部分的语义加以识别和标注。如上所述,对语义的理解可以帮助补全三维数据的空洞甚至三维传感器扫描不到的部分结构,而三维结构也可以提供场景中物体的形状信息从而实现部分语义的识别。尽管这一研究方向由于深度学习技术的发展取得了很大的进展,但是仍然有很多的不足。举例来说,三维数据获取成本高,而监督学习所依赖的大量三维语义类别标签难以获取,深度神经网络模型庞大,训练耗时,实际推理速度难以达到实时应用的要求,语义分类和结构补全的精度也有待提高;还有一个重要的不足,也可以说是上述这些不足的一个主要原因,是缺少了包含丰富视觉信息的图像数据。
近年来,随着一种新型的可以同时获取同一三维场景的彩色(也即RGB)图像和深度(也即Depth)图像这两种互为补充信息的RGB-D相机的出现和普及,为上述问题的解决开拓了新的探索方向。RGB-D相机例如微软的Kinect、英特尔的RealSense、以及国产品牌奥比中光的Astro系列等。通常来说,二维彩色相机获得的RGB图像具有高分辨率且图像特征非常完整,其包含丰富的颜色和纹理等视觉信息,三维深度传感器如红外热成像传感器、双目立体视觉成像传感器获得的深度图像则较为稀疏,往往还存在一些空洞,但其有值的每个像素点则包含了较为准确的实际场景的深度,因此这两种模态的数据具有很好的描述语义和结构的互补性。
三维场景感知技术中可能包含多种不同的技术,如场景识别技术、三维目标检测技术、语义分割技术、三维重建技术、场景补全技术等等。其中,三维场景的语义分割技术和场景补全技术是三维场景感知过程中的两个基本任务,这两个技术可以分别获取三维环境中每一点如体素或三维点云中的点的语义类别信息和三维场景结构信息,最终形成整个场景的带有语义标签的完整的体素表示或三维点云表示,将得到的三维结构信息和语义信息应用在计算机视觉技术中可以辅助执行不同任务,例如这些信息可以帮助移动机器人或者自动驾驶汽车快速获得其它任务的结果。图1列举了相关技术的三维场景感知技术,由于相关技术中的RGB和D两种不同模态、互为补充的数据并没有得到充分且高效的融合,且场景语义理解和三维结构感知这两个任务之间互相启发推动的关系也没有得到准确的表达和充分的利用,导致基于RGB-D多模态数据的三维语义场景补全技术还没有得到完美地解决。因此,现有的三维感知方法获得的三维场景感知结果的精度还不够高,速度还不够快,与实际应用场景的需求还有相当的差距。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市人工智能与机器人研究院,未经深圳市人工智能与机器人研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110838071.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机的路径规划方法和系统
- 下一篇:一种全自动智能激光切割机