[发明专利]一种利用RGB图像还原3D场景的方法有效

申请号：	201710621981.5	申请日：	2017-07-27
公开（公告）号：	CN107507126B	公开（公告）日：	2020-09-18
发明（设计）人：	李扬	申请（专利权）人：	和创懒人（大连）科技有限公司
主分类号：	G06T3/00	分类号：	G06T3/00;G06N3/04;G06N3/08
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	崔自京
地址：	116023 辽宁省大连高新技术***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用 rgb 图像还原场景方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及3维结构预测领域，特别涉及一种利用RGB图像还原3D场景的方法。该方法主要包括图像实例分割装置，3D模型生成装置，以及物体相对位置预测装置。该方法的输入数据是2维RGB图像。输出数据是整个环境的三维模型。该方法可以帮助机器人更好的理解所处环境，降低机器人移动，蔽障以及路径规划的难度。

技术领域

本发明设计涉及3维结构预测领域，特别涉及一种利用RGB图像还原3D场景的方法。

背景技术

人类大脑有补全环境3D信息的能力。看到一个3D物体的一面，人可以猜出另外的一面的样子，并且在大脑中生成整个物体的3D结构。这种利用部分信息推测完整3D结构的能力为人类的环境认知，移动，躲避障碍物，路径规划等提供很大帮助。机器尚不具备鲁棒的3D结构补全能力。即使在红外测距仪等的帮助下，机器也只能得到可见部分的3D信息。目前帮助机器实现3D结构补全的方法也主要集中在利用CAD库中预先定义好的3D物体模型来合成或拼接成与环境中物体相匹配的3D结构。这样的做法使生成的3D结构过于单一，并不能泛用到实际生活中多变的场景中。如图4所示，试验机器和人类看到同一张图片的反应，图为某场景的2D图像；图5所示机器在有深度信息的情况下对图像的理解，被遮挡的部分的信息无从得知；图6所示人类对图像的理解，人脑可以补全被遮挡的物体，还原3D结构。近年来随着监督学习的低枝果实被采摘的所剩无几，无监督学习成为了研究热点。GAN(Generative Adversarial Network，生成对抗网络)和VAE(Variational Auto-Encoder，变分自编码器)等自监督生成模型受到了越来越多的关注。生成模型可以利用潜在空间的随机向量，生成有意义的图像或者动画。图7-10展示了利用GAN实现的2D人脸图像补全效果，图7和图9为输入图像为带有噪音的人脸图像，图8和图10为输出图像为去掉噪音后的人脸。

同样的生成模型也被扩展到生成3D结构的任务中,2016年由MIT提出的3D-VAE-GAN可以利用物体的RGB图像推断出物体的3D图像。和人一样，现在的机器也拥有了利用RGB图像推断物体3D结构的能力。然而3D-VAE-GAN只能预测单个物体的3D结构，对于含有复杂环境，包含物体遮挡的场景还是无能为力。

综上所述，如何利用包含多个物体的场景的2D图像，还原场景的三维结构图，是一个亟待解决的问题。

发明内容

本发明的目的是提供一种利用RGB图像还原3D场景的方法，以帮助机器理解多物体，有遮挡的复杂环境。

为了实现上述目的，本发明提供如下技术方案：一种利用RGB图像还原3D场景的方法，具体流程为：

步骤S1:读入RGB图像；

步骤S2:在图像范围内进行物体检测，将检测到的物体利用矩形窗口进行标定；

步骤S3:检测到的图像进行实例分割，得到单个物体的蒙版；

步骤S4:利用深度学习模型来预测单个物体的三维形状，输入数据为单个物体的蒙版；

步骤S5:对图像中的每对儿物体间的相对关系进行回归预测；

步骤S6:利用预测得到的物体间的相对关系构建图；

步骤S7:进行全局图优化，得到最优的物体3维空间摆放方式；

步骤S8:得到三维场景。