[发明专利]基于元学习的室内场景重建方法有效

专利信息
申请号: 201911179135.8 申请日: 2019-11-27
公开(公告)号: CN110942512B 公开(公告)日: 2022-09-20
发明(设计)人: 王雅茹;杨鑫;尹宝才;张强;魏小鹏 申请(专利权)人: 大连理工大学
主分类号: G06T17/10 分类号: G06T17/10;G06N3/04;G06N3/08
代理公司: 大连理工大学专利中心 21200 代理人: 温福雪;侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 学习 室内 场景 重建 方法
【权利要求书】:

1.一种基于元学习的室内场景重建方法,其特征在于,步骤如下:

建模框架的目标任务的输入为视频,即连续序列的RGB图片,通过meta-critic网络输出三维点云模型;源任务为元学习的多任务学习模式,包含相机位姿预测及深度图预测两个源任务,两个源任务的输入均为彩色视频序列,输出分别为相机位姿序列及深度图序列;本方法利用元学习的meta-critic多任务联合学习的思想,从多个相关联的源任务中学习二维到三维的内在知识,作为目标任务的先验知识,以此为监督,训练目标任务的网络模型,达到更快更好地学习到从视频中重建出三维点云模型的方式方法;本方法的技术框架主要由两部分构成,分别为(1)源任务的多任务联合训练模型和(2)由预训练meta-critic模型为监督的目标任务模型;具体描述如下:

(1)多任务联合训练模型

源任务包括两个任务网络模型:一个是相机位姿预测网络,命名为CameraActor,另一个为深度图预测网络,命名为DepthActor;

深度图预测网络由带有跳连接的多尺度预测输出的编码器和解码器组成,编码器和解码器分别包含7层卷积或反卷积层,编码器卷积层的前两层卷积核分别为7×7,5×5,其余卷积层卷积核均为3×3,每个卷积后带有一个ReLU激活层,输出深度图尺寸与输入视频序列尺寸相同;

相机位姿预测网络由7个步长为2的卷积组成,每个卷积后带有一个1×1的卷积,输出通道为6:3个平移角和3个旋转角,用来表示相机位姿,最后应用一个平均池化层聚合在所有空间位置上的相机位姿预测值;

多任务联合训练模型通过一个Meta-Critic网络实现;Meta-Critic网络包含两个模块,分别为Meta-Value Net模块和Task-Actor Encoder模块;TAEN的输入为DepthActor和CameraActor的输入序列、预测的相机位姿及深度图序列、预测序列与真值之间的差值,其作用为将这些有效的信息编码为一个特征向量z;具体来说,将TAEN定义为一个LSTM的循环神经网络,最后带有一个全连接层,将LSTM最后一个时序的分布式特征映射为特征向量z;MVN的输入为DepthActor和CameraActor的输入序列、预测的相机位姿及深度图序列、TAEN的特征向量z,其作用为判定预测器Actor的准确度,并以此为监督通过神经网络学习的方式在训练过程中不断调整两个源任务的Actor以及Meta-Critic网络的参数,提高Meta-Critic网络的学习能力;

Meta-Critic网格的优化目标表示为:

其中,x为输入值,为预测值,z为TAEN编码的特征向量,r为输入与真值的差值,θ、和ω分别为任务预测器、MVN、TAEN的网络参数,由公式1和公式2看出,对每一个任务M,任务预测器Actor会在训练过程中学会学习最大化价值函数,使得预测结果更精确;

(2)目标任务模型

目标任务是从视频中对三维场景进行点云模型重建;目标任务模型包含点云预测模块及Meta-Critic模块两部分,Meta-Critic模块与多任务联合训练模型相同;点云预测模块输入为连续的彩色视频序列,输出为三维点云,网络构建基于标准LSTM和GRU模块,利用GRU模块保留上一个序列的有效特征,用于微调基于之前序列的特征而重建的场景点云,使场景点云包含更多的局部及全局细节特征;场景点云重建模型采用VGG结构,使用全卷积网络,卷积层均采用3×3卷积,带有ReLU非线性激活层,通过不断的下采样回归出三维的点云模型;

(3)数据集采集

多任务联合训练模型中,数据集采用开源数据集7Scenes,包含不同场景的彩色视频序列;

目标任务模型,即场景点云重建模型任务中,在SUNCG数据集提供的大型场景模型中,人工选取不同视角、不同的室内场景进行了数据采集,共计275组视频序列,每个视频序列包含20-25帧,每帧包含彩色图、深度图及其相机位姿的真值;

(4)实验过程

实验过程共分为三个阶段,多任务联合训练阶段、目标任务训练阶段以及目标任务测试阶段;多任务联合训练阶段在7Scenes数据集上进行训练,每次训练过程中送入多张连续图片作为多任务的预测器Actor的采样输入,输出预测的深度图及相机位姿结果与原输入一起送入Meta-Critic网络中进行监督训练,在不断的迭代训练中优化网络参数模型,直至模型收敛;目标任务训练阶段对7Scene数据集和从SUNCG中采集的数据集结合进行训练,在这一阶段,由多任务联合训练的模型的Meta-Critic网络的参数保持不变,对场景点云重建模型预测器Actor进行训练,优化场景点云重建模型;在目标任务测试阶段,仅使用在目标任务训练阶段优化的场景点云重建模型,输入连续视频序列,输出三维场景点云。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911179135.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top