[发明专利]一种基于生成对抗网络的三维语义场景重建方法有效
申请号: | 201910900112.5 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110660128B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 高振宇;赵现平;马仪;何潇;周仿荣;马御棠;潘浩 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院;云南电网有限责任公司 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06V10/774;G06V10/764 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 袁文英 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 三维 语义 场景 重建 方法 | ||
本申请属于计算机技术领域,尤其涉及一种基于生成对抗网络的三维语义场景重建方法。由深度图作为输入的三维卷积网络是目前生成三维语义场景最为有效的一类方法。但是在实际应用场景中,存在深度图不完整的情况,同时在语义分割上未考虑对象颜色、纹理信息等问题,导致输出的三维语义场景不真实、甚至重建失败。为了解决此类问题,本申请提供一种基于生成对抗网络的三维语义场景重建方法,生成对抗网络有效提高三维场景重建的准确率,同时生成模型减小对原始输入信号的依赖,因此可以适应实例场景中不具备深度相机的情况。本申请具有更广泛的适用性,鲁棒性好并且准确度较高。
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于生成对抗网络的三维语义场景重建方法。
背景技术
目前的三维语义场景重建方法大致可以分为基于数据点云的三维重建方法和基于图像的三维重建方法。由于基于数据点云的重建方法成本昂贵,基于图像的三维重建方法相对廉价,成为了研究热点。早期的技术通常以二维图像作为输入,重建出场景中的三维模型。但是,受限于输入的数据视角遮挡等因素影响,重建出的三维模型通常不够完整,而且真实感较低。随着各种面向普通消费者的深度相机(depth camera)的出现,基于深度相机的三维扫描和重建技术得到飞速发展。在基于深度数据的三维重建方面,KinectFusion首开先河,但是在通过ICP(Iterative ClosestPoint)求解变换矩阵相机位姿后,并没有对位姿进行进一步优化。而经典的SLAM(simultaneous location and mapping)算法对轨迹的优化通常采用滤波器预测或图优化的方法,计算复杂度较高。ElasticFusion为了避免图优化带来复杂的计算量,而使用快速的几何光度一致性优化来简单地优化相机姿态参数。其他先前的工作集中在单个物体进行3D补全,要将这些方法应用于完整的场景,需要额外的分割或对象蒙版。对于场景补全,当缺失区域相对较小时,可以应用使用平面拟合或对象对称的方法来填充孔,这些方法严重依赖于几何的规律性,并且当缺失区域较大时,容易导致补全失败。
语义分割的主要任务是对图像进行逐像素标记。基于深度学习的语义分割主要包含两种方法,基于图像的二维语义分割和基于体积的三维语义分割。前者利用图像的密集像素来达到较高的分割精度,而后者试图通过挖掘几何体素信息来实现语义分割。二维语义分割由于卷积神经网络的出现,目前由深度学习进行图像语义分割得到了质的飞跃,无论是准确率还是效率都远超传统方式。然而三维语义分割方面,许多先前的工作都集中在对RGB-D图像进行分割上面。其中FCN是奠基之作,全卷积的网络中的下采样导致位置敏感性较差,边缘准确性不高,只能计算出目标对象的轮廓。DeepLab针对FCN的这一特点,将DenseCRF(dense conditional random field)应用于基于卷积网络的输出结果,这些方法仅仅考虑对观测到的表面像素进行语义分割,而不考虑对象的完整形状,因此这种方法不能直接执行场景补全或预测可见表面之外的标签。
尽管三维场景重建与图像语义分割作为两个不同的领域,其内在依然存在着一定的关联,Song et al.提出将场景补全和语义分割两个任务结合起来则,其论文所建立的SSCNet,通过输入单幅的深度图像,输出了带语义信息的三维体素。虽然这种方法同时完成语义分割和三维重建任务并显着改善了结果,但3D CNN成倍增长的参数量则限制了输入图像分辨率和网络深度,从而限制了其性能。其后Yu.通过将原始深度图进行特征投影,使得输入的三维体素尺度降低,从而节省了运行所需的内存并有效的提升了运行效率,然而这种方法由于部分特征的丢失,使得最终准确率有所下降。因此,Jia et al.提出通过对深度图进行随机采样的方法,将采样结果以哈希表的形式存储,然后将采样结果同时输入多个3DSCN网络中进行计算,并且多个3DSCN之间共享参数,得到多个三维场景,最后将多个场景进行耦合,输出完整的三维语义场景。
由深度图作为输入的三维卷积网络是目前生成三维语义场景最为有效的一类方法。但是在实际应用场景中,存在作为输入的深度图不完整的情况,同时在语义分割上未考虑对象颜色、纹理信息等问题,导致输出的三维语义场景不真实、甚至重建失败。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院;云南电网有限责任公司,未经云南电网有限责任公司电力科学研究院;云南电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910900112.5/2.html,转载请声明来源钻瓜专利网。