[发明专利]一种利用RGB图像还原3D场景的方法有效
申请号: | 201710621981.5 | 申请日: | 2017-07-27 |
公开(公告)号: | CN107507126B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 李扬 | 申请(专利权)人: | 和创懒人(大连)科技有限公司 |
主分类号: | G06T3/00 | 分类号: | G06T3/00;G06N3/04;G06N3/08 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 崔自京 |
地址: | 116023 辽宁省大连高新技术*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 rgb 图像 还原 场景 方法 | ||
本发明涉及3维结构预测领域,特别涉及一种利用RGB图像还原3D场景的方法。该方法主要包括图像实例分割装置,3D模型生成装置,以及物体相对位置预测装置。该方法的输入数据是2维RGB图像。输出数据是整个环境的三维模型。该方法可以帮助机器人更好的理解所处环境,降低机器人移动,蔽障以及路径规划的难度。
技术领域
本发明设计涉及3维结构预测领域,特别涉及一种利用RGB图像还原3D场景的方法。
背景技术
人类大脑有补全环境3D信息的能力。看到一个3D物体的一面,人可以猜出另外的一面的样子,并且在大脑中生成整个物体的3D结构。这种利用部分信息推测完整3D结构的能力为人类的环境认知,移动,躲避障碍物,路径规划等提供很大帮助。机器尚不具备鲁棒的3D结构补全能力。即使在红外测距仪等的帮助下,机器也只能得到可见部分的3D信息。目前帮助机器实现3D结构补全的方法也主要集中在利用CAD库中预先定义好的3D物体模型来合成或拼接成与环境中物体相匹配的3D结构。这样的做法使生成的3D结构过于单一,并不能泛用到实际生活中多变的场景中。如图4所示,试验机器和人类看到同一张图片的反应,图为某场景的2D图像;图5所示机器在有深度信息的情况下对图像的理解,被遮挡的部分的信息无从得知;图6所示人类对图像的理解,人脑可以补全被遮挡的物体,还原3D结构。近年来随着监督学习的低枝果实被采摘的所剩无几,无监督学习成为了研究热点。GAN(Generative Adversarial Network,生成对抗网络)和VAE(Variational Auto-Encoder,变分自编码器)等自监督生成模型受到了越来越多的关注。生成模型可以利用潜在空间的随机向量,生成有意义的图像或者动画。图7-10展示了利用GAN实现的2D人脸图像补全效果,图7和图9为输入图像为带有噪音的人脸图像,图8和图10为输出图像为去掉噪音后的人脸。
同样的生成模型也被扩展到生成3D结构的任务中,2016年由MIT提出的3D-VAE-GAN可以利用物体的RGB图像推断出物体的3D图像。和人一样,现在的机器也拥有了利用RGB图像推断物体3D结构的能力。然而3D-VAE-GAN只能预测单个物体的3D结构,对于含有复杂环境,包含物体遮挡的场景还是无能为力。
综上所述,如何利用包含多个物体的场景的2D图像,还原场景的三维结构图,是一个亟待解决的问题。
发明内容
本发明的目的是提供一种利用RGB图像还原3D场景的方法,以帮助机器理解多物体,有遮挡的复杂环境。
为了实现上述目的,本发明提供如下技术方案:一种利用RGB图像还原3D场景的方法,具体流程为:
步骤S1:读入RGB图像;
步骤S2:在图像范围内进行物体检测,将检测到的物体利用矩形窗口进行标定;
步骤S3:检测到的图像进行实例分割,得到单个物体的蒙版;
步骤S4:利用深度学习模型来预测单个物体的三维形状,输入数据为单个物体的蒙版;
步骤S5:对图像中的每对儿物体间的相对关系进行回归预测;
步骤S6:利用预测得到的物体间的相对关系构建图;
步骤S7:进行全局图优化,得到最优的物体3维空间摆放方式;
步骤S8:得到三维场景。
进一步的,步骤S2具体包括:利用深度学习模型在图像上进行特征提取,生产检测物体候选区域,检测物体窗口分类和窗口位置最优推定。其有益效果是,利用深度学习模型得到的检测结果精度高,误差小。
进一步的步骤S3具体包括:步骤S2产生的物体候选区域内部进行特征上采样,利用双线性差值的方法得到的检测物体窗口内部像素级别的分类,将窗口内类别相同的像素统合为该检测物体的蒙版。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和创懒人(大连)科技有限公司,未经和创懒人(大连)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710621981.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序