[发明专利]一种基于无向图学习模型的单图像面片重建方法有效
申请号: | 201910428208.6 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110163974B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 孙正兴;王梓轩;武蕴杰;宋有成 | 申请(专利权)人: | 南京大学 |
主分类号: | G06T17/20 | 分类号: | G06T17/20;G06T7/70 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 模型 图像 重建 方法 | ||
1.一种基于无向图学习模型的单图像面片重建方法,其特征在于,包括以下步骤:
步骤1,准备神经网络的训练数据:对现有三维模型集中的所有三维模型进行预处理,得到训练图像集;
步骤2,构建无向图初始化网络:使用卷积神经网络建立图像编码器,并对图像进行相机视角估计,获得图像对应的相机视角参数;
步骤3,构建无向图更新网络:根据相机视角参数对初始三角面片进行投影,获得无向图更新序列,按照无向图更新序列更新每个无向图节点,将更新的特征传播到整个无向图;
步骤4,离线训练无向图初始化网络和无向图更新网络:设计无向图初始化网络和无向图更新网络损失,并设置神经网络输入为步骤1中准备的训练图像集,根据无向图初始化网络和无向图更新网络损失反向传播进行离线训练;
步骤5,输入测试图像,得到测试图像对应的三角面片结果;
步骤1包括以下步骤:
步骤1-1,三维模型归一化:对于三维模型集的每个三维模型,计算其轴对齐最小包围盒,对三维模型进行缩放和平移使所述包围盒的最长边长度为1且包围盒中心位于坐标原点;
步骤1-2,三维模型水密化:对于三维模型集的每个三维模型,使用水密方法去除三维模型的孔洞,使三维模型所有离散部件合并构成整个单一模型;
步骤1-3,多视角选取:对三维模型集中的每个三维模型,在三维空间中选取16个与坐标原点距离相等且指向坐标原点的不同视角:
View={Viewi|i=1,2,…,16},
其中View为视角集合,Viewi为第i个视角;
记第i个视角可用视角的位置坐标为vpi,观察方向的方向向量为di,即每个视角记作Viewi=(vpi,di),通过下式计算vpi:
其中,θi为第i个视角的观察方向向量与三维坐标系的y轴的夹角,为第i个视角的观察方向向量与三维坐标系z轴的夹角,r为观察点距离三维形状中心点的距离,θbase为一个常量;ξi为一个位于区间内的随机实数;而第i个视角的观察方向的方向向量即为由观察点指向坐标原点的向量,即
步骤1-4,生成多视角渲染图像:在步骤1-2选取的每个视角方向下对三维模型使用Phong光照模型进行渲染得到白色背景图像,将渲染后的图像组成训练图像集;
步骤2包括以下步骤:
步骤2-1,构建图像信息编码器:将带有残差结构的卷积神经网络应用于图像信息编码器从而提取图像信息,编码器接收步骤1-4中渲染生成的图像作为输入,输出一个抽象图像信息的特征矩阵;具体地,用于编码器的残差网络包括十七层卷积层,每三层卷积层包含一个残差连接结构,所述残差连接结构使信号跨越前两层卷积层直接传递至第三层;
步骤2-2,构建相机视角估计网络:使用多个全连接层构建相机视角估计网络,获得图像对应的相机视角参数,即相机在世界坐标系中的坐标;
步骤2-3,获得点投影图:从三维模型集中随机选择初始三角面片,根据相机视角参数将初始三角面片顶点投影至二维平面,获得点投影图;
步骤2-4,双线性点特征插值:根据点投影图从步骤2-1得到的特征矩阵中利用双线性插值的方法获得每个点的特征值作为无向图初始特征值;
步骤2-1包括:
令函数g表示步骤2-1中构建的图像信息编码器中卷积层所进行的卷积操作,则图像信息的提取过程通过下式表示:
其中,I表示输入图像的维度为H0×W0×3的三维矩阵,H0、W0分别为输入图像的高和宽,gi为第i层卷积层进行的卷积操作,Fi为图像编码器中的第i层卷积层输出的特征图,m表示卷积层的层数,Fm为最终输出的维度为Hm×Wm×Dm特征矩阵,Hm、Wm和Dm分别为特征矩阵的高度、宽度和深度;
步骤2-2包括以下步骤:
令函数fi(F)=Wi·F+Bi表示第i层全连接层对特征图F所进行的线性计算操作,Wi为权重矩阵,bi为偏置向量,则全连接层通过下式表示:
Pfc=f3(f2(f1(Fm))),
其中,Pfc为全连接层生成的相机视角估计参数,fi为第i层全连接层所进行的线性计算;
步骤2-3包括:
从三维模型集中选择一个面片模型作为初始面片,最后重建所得面片与此初始面片同胚,在获得相机视角后,投影过程输入为相机视角和初始面片所有顶点在世界坐标系中的坐标,输出为这些顶点在图像上的位置,记Ow=(Xw,Yw,Zw)表示步骤2-2所得的世界坐标系中的相机视角坐标,Xw,Yw,Zw分别表示相机视角Ow处的横坐标、纵坐标和垂直坐标;世界坐标系中一点的位置为(X,Y,Z),在图像坐标系中对应的坐标为(x,y);f=(fx,fy)表示相机在x轴和y轴上的焦距,是图像中点O到相机坐标系光心Oc的距离,fx,fy分别表示相机在x轴上的焦距和y轴上的焦距,Zc为图像尺寸,则投影过程通过下式计算得到:
步骤2-4包括:
在获得三角面片所有顶点的二维投影后,将二维投影与图像信息编码器获得的特征图对应,然后用双线性插值从四个附近像素插值获得每个点的特征,以此作为无向图的初始特征值,双线性插值是在x轴和y轴两个方向分别进行一次线性插值,则任一点的特征仅与该点在x轴和y轴两个方向相邻的四个像素点特征值有关:记(x1,y1),(x1,y2),(x2,y1)和(x2,y2)是投影点所在的特征图上点(x,y)相邻四个像素点的坐标,其中x1xx2,y1yy2,记f(x,y)表示该点的特征值,则特征图上该点插值结果通过下式计算得到:
步骤3包括以下步骤:
步骤3-1,生成点序列:将步骤2-3投影得到的二维点与步骤1-4中渲染生成的图像作比较,与原图像中物体距离越远的点在无向图更新时顺序越靠前;
步骤3-2,构建无向图LSTM网络结构,融合全局特征和无向图节点特征,实现无向图的特征更新;
步骤3-3,构建无向图CNN网络结构,既用于无向图特征更新,也用于完成特征空间到三维空间的映射,获得三角面片每个点在三维空间内的坐标,获得重建后的三角面片;
步骤3-1包括:
给定初始三角面片和相机视角参数,将初始三角面片顶点按照步骤2-3所述的投影过程投影至二维平面,将投影得到的二维点与原图作比较,与原图中物体距离越远的点在无向图更新时顺序越靠前;
步骤3-2包括:
记为节点vi的所有邻居节点,设计无向图LSTM每个节点单元的输入包括:节点vi的输入状态节点vi第t层隐藏态节点vi的记忆态以及节点vi相邻节点的隐藏态和记忆态
无向图中的任一节点具有任意数量的邻居节点,节点vi的LSTM门控隐藏态通过对节点vi的相邻节点的隐藏态求平均来获得;每个无向图节点vj存在一个访问标志指示该节点是否已被更新,其中在已被更新时设置为1,否则为0,这一访问标志用二元指示函数控制,门控隐藏态计算方式如下:
无向图LSTM为节点vi不同的相邻节点指定自适应遗忘门记节点vi对应的输入门为遗忘门为自适应遗忘门为记忆门为输出门为相应地,Wu、Wf、Wc、Wo是与输入特征对应的循环门控权重矩阵,Uu、Uf、Uc、Uo是与隐藏态对应的循环门控权重矩阵,Uun、Ufn、Ucn、Uon是与邻居节点隐藏态对应的权重参数,Ufn是无向图所有节点的共享权重度量,bf为偏置权重,上述的权重均为神经网络用于训练的参数,δ是sigmoid函数,⊙是哈达马积函数,每个无向图LSTM单元更新过程为:
接着更新记忆态和隐藏态:
步骤3-3包括:
记R表示特征维度,无向图CNN网络层接受的输入为特征矩阵和无向图中节点的邻接矩阵A∈RN×N,输出为Do是每个节点的输出维度,第i个节点vi的特征值为xi,N是节点个数,Di是第i个节点的输入特征维度;
记I是单位矩阵,是的对角节点度矩阵,对角节点度矩阵包含有关每个节点的度的信息,即每个节点的边数;
记H为隐藏层特征维度,W(0)表示输入层与隐藏层之间的权重参数,W(1)∈RH×F表示隐藏层与输出层之间的权重参数,则只含一层隐藏层的图卷积函数f0在输入特征矩阵X和邻接矩阵A时输出Z为:
累积三次图卷积函数,均按照上述图卷积过程进行更新,则最后的网络层输出为:
Z=f3(f2(f1(X,A)))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910428208.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种区域边界环光顺方法
- 下一篇:空间直线的绘制方法、装置、设备及存储介质
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序