[发明专利]一种基于无向图学习模型的单图像面片重建方法有效

申请号：	201910428208.6	申请日：	2019-05-22
公开（公告）号：	CN110163974B	公开（公告）日：	2020-09-04
发明（设计）人：	孙正兴;王梓轩;武蕴杰;宋有成	申请（专利权）人：	南京大学
主分类号：	G06T17/20	分类号：	G06T17/20;G06T7/70
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华;于瀚文
地址：	210023 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于学习模型图像重建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于无向图学习模型的单图像面片重建方法，其特征在于，包括以下步骤：

步骤1，准备神经网络的训练数据：对现有三维模型集中的所有三维模型进行预处理，得到训练图像集；

步骤2，构建无向图初始化网络：使用卷积神经网络建立图像编码器，并对图像进行相机视角估计，获得图像对应的相机视角参数；

步骤3，构建无向图更新网络：根据相机视角参数对初始三角面片进行投影，获得无向图更新序列，按照无向图更新序列更新每个无向图节点，将更新的特征传播到整个无向图；

步骤4，离线训练无向图初始化网络和无向图更新网络：设计无向图初始化网络和无向图更新网络损失，并设置神经网络输入为步骤1中准备的训练图像集，根据无向图初始化网络和无向图更新网络损失反向传播进行离线训练；

步骤5，输入测试图像，得到测试图像对应的三角面片结果；

步骤1包括以下步骤：

步骤1-1，三维模型归一化：对于三维模型集的每个三维模型，计算其轴对齐最小包围盒，对三维模型进行缩放和平移使所述包围盒的最长边长度为1且包围盒中心位于坐标原点；

步骤1-2，三维模型水密化：对于三维模型集的每个三维模型，使用水密方法去除三维模型的孔洞，使三维模型所有离散部件合并构成整个单一模型；

步骤1-3，多视角选取：对三维模型集中的每个三维模型，在三维空间中选取16个与坐标原点距离相等且指向坐标原点的不同视角：

View＝{View_i|i＝1,2,…,16}，

其中View为视角集合，View_i为第i个视角；

记第i个视角可用视角的位置坐标为vp_i，观察方向的方向向量为d_i，即每个视角记作View_i＝(vp_i,d_i)，通过下式计算vp_i：

其中，θ_i为第i个视角的观察方向向量与三维坐标系的y轴的夹角，为第i个视角的观察方向向量与三维坐标系z轴的夹角，r为观察点距离三维形状中心点的距离，θ_base为一个常量；ξ_i为一个位于区间内的随机实数；而第i个视角的观察方向的方向向量即为由观察点指向坐标原点的向量，即

步骤1-4，生成多视角渲染图像：在步骤1-2选取的每个视角方向下对三维模型使用Phong光照模型进行渲染得到白色背景图像，将渲染后的图像组成训练图像集；

步骤2包括以下步骤：

步骤2-1，构建图像信息编码器：将带有残差结构的卷积神经网络应用于图像信息编码器从而提取图像信息，编码器接收步骤1-4中渲染生成的图像作为输入，输出一个抽象图像信息的特征矩阵；具体地，用于编码器的残差网络包括十七层卷积层，每三层卷积层包含一个残差连接结构，所述残差连接结构使信号跨越前两层卷积层直接传递至第三层；

步骤2-2，构建相机视角估计网络：使用多个全连接层构建相机视角估计网络，获得图像对应的相机视角参数，即相机在世界坐标系中的坐标；

步骤2-3，获得点投影图：从三维模型集中随机选择初始三角面片，根据相机视角参数将初始三角面片顶点投影至二维平面，获得点投影图；

步骤2-4，双线性点特征插值：根据点投影图从步骤2-1得到的特征矩阵中利用双线性插值的方法获得每个点的特征值作为无向图初始特征值；

步骤2-1包括：

令函数g表示步骤2-1中构建的图像信息编码器中卷积层所进行的卷积操作，则图像信息的提取过程通过下式表示：

其中，I表示输入图像的维度为H₀×W₀×3的三维矩阵，H₀、W₀分别为输入图像的高和宽，g_i为第i层卷积层进行的卷积操作，F_i为图像编码器中的第i层卷积层输出的特征图，m表示卷积层的层数，F_m为最终输出的维度为H_m×W_m×D_m特征矩阵，H_m、W_m和D_m分别为特征矩阵的高度、宽度和深度；

步骤2-2包括以下步骤：

令函数f_i(F)＝W_i·F+B_i表示第i层全连接层对特征图F所进行的线性计算操作，W_i为权重矩阵，b_i为偏置向量，则全连接层通过下式表示：

P_fc＝f₃(f₂(f₁(F_m)))，

其中，P_fc为全连接层生成的相机视角估计参数，f_i为第i层全连接层所进行的线性计算；

步骤2-3包括：

从三维模型集中选择一个面片模型作为初始面片，最后重建所得面片与此初始面片同胚，在获得相机视角后，投影过程输入为相机视角和初始面片所有顶点在世界坐标系中的坐标，输出为这些顶点在图像上的位置，记O_w＝(X_w,Y_w,Z_w)表示步骤2-2所得的世界坐标系中的相机视角坐标，X_w,Y_w,Z_w分别表示相机视角O_w处的横坐标、纵坐标和垂直坐标；世界坐标系中一点的位置为(X,Y,Z)，在图像坐标系中对应的坐标为(x,y)；f＝(f_x,f_y)表示相机在x轴和y轴上的焦距，是图像中点O到相机坐标系光心O_c的距离，f_x,f_y分别表示相机在x轴上的焦距和y轴上的焦距，Z_c为图像尺寸，则投影过程通过下式计算得到：

步骤2-4包括：

在获得三角面片所有顶点的二维投影后，将二维投影与图像信息编码器获得的特征图对应，然后用双线性插值从四个附近像素插值获得每个点的特征，以此作为无向图的初始特征值，双线性插值是在x轴和y轴两个方向分别进行一次线性插值，则任一点的特征仅与该点在x轴和y轴两个方向相邻的四个像素点特征值有关：记(x₁,y₁)，(x₁,y₂)，(x₂,y₁)和(x₂,y₂)是投影点所在的特征图上点(x,y)相邻四个像素点的坐标，其中x₁xx₂，y₁yy₂，记f(x,y)表示该点的特征值，则特征图上该点插值结果通过下式计算得到：

步骤3包括以下步骤：

步骤3-1，生成点序列：将步骤2-3投影得到的二维点与步骤1-4中渲染生成的图像作比较，与原图像中物体距离越远的点在无向图更新时顺序越靠前；

步骤3-2，构建无向图LSTM网络结构，融合全局特征和无向图节点特征，实现无向图的特征更新；

步骤3-3，构建无向图CNN网络结构，既用于无向图特征更新，也用于完成特征空间到三维空间的映射，获得三角面片每个点在三维空间内的坐标，获得重建后的三角面片；

步骤3-1包括：

给定初始三角面片和相机视角参数，将初始三角面片顶点按照步骤2-3所述的投影过程投影至二维平面，将投影得到的二维点与原图作比较，与原图中物体距离越远的点在无向图更新时顺序越靠前；

步骤3-2包括：

记为节点v_i的所有邻居节点，设计无向图LSTM每个节点单元的输入包括：节点v_i的输入状态节点v_i第t层隐藏态节点v_i的记忆态以及节点v_i相邻节点的隐藏态和记忆态

无向图中的任一节点具有任意数量的邻居节点，节点v_i的LSTM门控隐藏态通过对节点v_i的相邻节点的隐藏态求平均来获得；每个无向图节点v_j存在一个访问标志指示该节点是否已被更新，其中在已被更新时设置为1，否则为0，这一访问标志用二元指示函数控制，门控隐藏态计算方式如下：

无向图LSTM为节点v_i不同的相邻节点指定自适应遗忘门记节点v_i对应的输入门为遗忘门为自适应遗忘门为记忆门为输出门为相应地，W^u、W^f、W^c、W^o是与输入特征对应的循环门控权重矩阵，U^u、U^f、U^c、U^o是与隐藏态对应的循环门控权重矩阵，U^un、U^fn、U^cn、U^on是与邻居节点隐藏态对应的权重参数，U^fn是无向图所有节点的共享权重度量，b^f为偏置权重，上述的权重均为神经网络用于训练的参数，δ是sigmoid函数，⊙是哈达马积函数，每个无向图LSTM单元更新过程为：