[发明专利]三维场景感知方法、装置、电子设备、机器人及介质有效
申请号: | 202110838071.9 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113487664B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 黄锐;李杰 | 申请(专利权)人: | 深圳市人工智能与机器人研究院 |
主分类号: | G06T7/593 | 分类号: | G06T7/593;G06V10/26;G06V10/44;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 温可睿 |
地址: | 518000 广东省深圳市龙岗区坂田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三维 场景 感知 方法 装置 电子设备 机器人 介质 | ||
1.一种三维场景感知方法,其特征在于,包括:
分别对待感知三维场景的RGB-D多模态数据的二维图像数据进行二维语义分割和单目深度估计,得到二维语义特征和二维结构特征;
分别对所述RGB-D多模态数据的三维深度数据进行三维语义分割和三维场景补全,得到三维语义特征和三维结构特征;其中,所述三维结构特征为待感知三维场景中各三维目标的几何结构的特征,所述三维语义特征为待感知三维场景中各三维目标的语义特征;
将所述二维语义特征和所述三维语义特征进行特征融合,得到融合语义特征,将所述二维结构特征与所述三维结构特征进行特征融合,得到融合结构特征;
基于所述融合语义特征和所述融合结构特征,通过语义结构并行交互迭代融合方式对所述待感知三维场景进行三维语义场景补全,得到所述待感知三维场景的语义类别信息和三维场景结构信息;
其中,所述将所述二维语义特征和所述三维语义特征进行特征融合,得到融合语义特征的过程,包括:预先基于可变形卷积神经网络和文本金字塔结构构建DCP模块;将所述二维语义特征投影到三维空间,得到三维投影特征;将所述三维投影特征转换为与所述三维语义特征具有相同通道数的三维标准投影特征;将所述三维投影特征输入至所述DCP模块,得到三维增强特征;将通过所述三维增强特征、所述三维标准投影特征和所述三维语义特征合成的三维初融合语义特征投影至平面空间,得到二维融合语义特征;将所述三维初融合语义特征输入深度注意力模块中,得到三维融合语义特征;所述DCP模块用于聚合几何上下文信息,并适应物体的形状和尺度变化;
所述基于所述融合语义特征和所述融合结构特征,通过并行交互迭代融合方式对所述待感知三维场景进行三维语义场景补全,得到所述待感知三维场景的语义类别信息和三维场景结构信息,包括:预先基于深度神经网络模型构建双向迭代交互增强网络,所述双向迭代交互增强网络包括语义辅助结构模块、结构辅助语义模块和语义结构特征融合模块;将所述融合语义特征和所述融合结构特征输入至所述双向迭代交互增强网络,利用所述语义辅助结构模块基于所述融合语义特征执行场景补全任务,利用所述结构辅助语义模块基于所述融合结构特征执行语义分割任务;利用所述语义特征融合模块将所述场景补全任务的执行结果和所述语义分割任务的执行结果不断迭代融合直至满足迭代结束条件,得到所述语义类别信息和所述三维场景结构信息;其中,所述语义辅助结构模块用于执行语义辅助结构任务,根据空间中每个点的语义信息及其周围点的语义标签,推断出其几何性质,进而补全场景物体几何结构;所述结构辅助语义模块用于执行结构辅助语义任务,利用结构特征建模语义特征,显示地帮助语义分割任务。
2.根据权利要求1所述的三维场景感知方法,其特征在于,所述将所述二维结构特征与所述三维结构特征进行特征融合,得到融合结构特征的过程,包括:
将所述三维结构特征投影到平面空间,得到二维投影特征;
合成所述二维投影特征和所述二维结构特征,得到二维融合结构特征;
将所述二维融合结构特征投影至三维空间,得到三维初融合结构特征,合成所述三维初融合结构特征和所述三维结构特征得到三维融合结构特征。
3.根据权利要求1所述的三维场景感知方法,其特征在于,所述分别对待感知三维场景的RGB-D多模态数据的二维图像数据进行二维语义分割和单目深度估计,得到二维语义特征和二维结构特征之前,还包括:
基于深度神经网络模型构建包括二维语义分割网络和三维语义分割网络的语义分割主干网络、包括深度估计网络和场景补全网络的场景补全主干网络;所述语义分割主干网络和所述场景补全主干网络的目标三维卷积核沿三个维度进行分解;
其中,所述二维语义分割网络对二维图像数据进行二维语义分割得到二维语义特征;所述三维语义分割网络对三维深度数据进行三维语义分割得到三维语义特征;所述深度估计网络对二维图像数据进行单目深度估计得到二维结构特征;所述场景补全网络对三维深度数据进行三维场景补全得到三维结构特征。
4.根据权利要求1所述的三维场景感知方法,其特征在于,所述双向迭代交互增强网络的目标三维卷积核沿三个维度进行分解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市人工智能与机器人研究院,未经深圳市人工智能与机器人研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110838071.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机的路径规划方法和系统
- 下一篇:一种全自动智能激光切割机