[发明专利]一种基于多平面图像学习视角合成的基线扩展实现方法在审

申请号：	202011105754.5	申请日：	2020-10-15
公开（公告）号：	CN112233165A	公开（公告）日：	2021-01-15
发明（设计）人：	张淼;朴永日;孙小飞	申请（专利权）人：	大连理工大学
主分类号：	G06T7/593	分类号：	G06T7/593;G06T15/04;G06T15/10;G06N3/04;G06N3/08
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	陈丽;李洪福
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于平面图像学习视角合成基线扩展实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多平面图像学习视角合成的基线扩展实现方法，用于从窄基线立体摄像机捕获的图像中推断出基线之外的视图。包括：基于视频剪辑获取包括由第一相机采集的第一幅图像和由第二相机采集的第二幅图像的立体图像对；将第二幅图像投影到第一相机坐标系下的一组深度平面上，计算平面扫描量，得到重新投影的图像；将重新投影的图像沿着颜色通道级联，再将张量与第一幅图像级联，得到输入张量；将输入张量输入训练好的基于深度神经网络的MPI学习网络，得到多平面图像MPI的RGBA分层表示；基于MPI的RGBA分层表示，合成同一场景的输入视图之外的视图。本发明在扩展窄基线立体图像方面具有良好的应用前景，并能对许多具有挑战性的场景获得准确的推理结果。

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于多平面图像学习视角合成的基线扩展实现方法。

背景技术

随着立体摄像机的广泛应用，大量立体图像数据的产生促进了立体视觉技术的进步。然而，大部分立体摄相机，如虚拟现实(VR)摄像机和当前广泛使用的双镜头摄像机，都属于窄基线立体摄相机，这类立体摄相机的基线比人眼的距离要窄，所以拍摄出的立体图像不能与人类视觉系统相匹配，不能到达引人注目的3D立体效果，或者不能到达沉浸式的虚拟体验。

因此，亟需一种从这样窄基线的参考图像合成基线之外的新视图的方法。

发明内容

从成对的输入图像到基线放大数倍的新视角，称之为视图的基线扩展。基线扩展在摄影中有许多应用，例如，可以在手机上拍摄一对窄基线(约1厘米)的立体图像，并通过基线扩展实现适合人类视觉系统(约6.3厘米)的立体图像对，以创建具有引人注目的3D立体效果的照片；或者，可以使用VR180°摄像机拍摄瞳距(IPD)分离的立体图像对，并沿一条半米长的线外插值至整个视角的图像集，以便在较小的头部运动范围内实现全视差。

本发明提供了一种基于多平面图像学习视角合成的基线扩展实现方法，该方法是一个实用而强大的深度学习解决方案，用于捕捉和渲染复杂现实场景的基线外视图，以进行虚拟探索。

本发明提供了以下技术方案：

一种基于多平面图像学习视角合成的基线扩展实现方法，包括以下步骤：

步骤1、基于视频剪辑获取立体图像对；所述立体图像对包括由第一相机采集的第一幅图像I₁和由第二相机采集的第二幅图像I₂；

步骤2、将所述第二幅图像I₂重新投影到所述第一相机的坐标系下的一组固定深度平面上，计算平面扫描量，得到重新投影的图像表示I₂重新投影到I₁视角下深度为D的平面上的图像；

步骤3、将所述重新投影的图像沿着颜色通道级联，得到维度为H×W×3D的张量再将所述张量与所述第一幅图像级联，得到维度为H×W×3(D+1)的输入张量；其中，H和W表示投影图像的长和宽，D表示深度；

步骤4、将所述输入张量输入训练好的基于深度神经网络的MPI学习网络，得到多平面图像MPI的RGBA分层表示；

步骤5、基于MPI的RGBA分层表示，合成同一场景的输入视图之外的视图。

进一步地，获取立体图像对包括：

基于视频剪辑选取连续N帧视频子序列；其中，N为大于2的正整数；

从所述视频子序列中随机选取立体图像对。

进一步地，得到多平面图像MPI的RGBA分层表示，包括：