[发明专利]一种视频的立体场景重建方法有效
申请号: | 202010727956.7 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111882661B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 高跃;李仁杰;赵曦滨 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06N3/04;G06N3/08 |
代理公司: | 北京律谱知识产权代理有限公司 11457 | 代理人: | 黄云铎;孙红颖 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 立体 场景 重建 方法 | ||
本发明提供了一种基于视频的立体场景重建方法,其中,该方法包括:步骤1.训练样本处理,把视频帧和激光雷达扫描到的稀疏深度图帧组合为一定长度的帧序列,用于训练;步骤2.模型训练,将预处理后的样本中的视频帧和稀疏深度图帧按顺序输入模型,与样本真实值计算损失后,使用反向传播更新模型参数;步骤3.将测试数据逐帧输入模型,得到每一帧对应的深度重建结果。本发明通过提取视频中的连续特征,可以得到更准确的重建结果。
技术领域
本申请涉及立体场景重建的技术领域,具体而言,涉及一种基于视频的立体场景重建方法。
背景技术
近年来,自动驾驶、虚拟现实等技术被越来越多地应用在生活中,从传感器采集到的数据中重建出立体场景是实现这些技术的重要一步。现有的技术使用一些传统图形学方法、使用RGB图片导引或利用场景的结构信息来对立体场景进行重建。这些方法均把不同时刻的场景当作孤立的对象处理,没有考虑时间上的连续性这一现实场景的重要特性。通过利用视频这一数据模态中的连续性信息,可以提高场景的重建效果。
传统的利用视频的连续性的手段包括利用相邻帧梯度、特征点匹配、位姿估计等。神经网络则使用循环结构将历史特征编码在隐藏态中。对于图像序列,循环结构将带来较大的空间开销和较高的训练难度。
发明内容
本发明的目的是通过循环网络结构,提取视频中的时间连续特征,利用场景的连续性,得到更好的场景重建结果。
本发明的技术方案是提供了一种基于视频的立体场景重建方法,其特征在于包括如下步骤:
步骤1、训练样本处理,将视频帧和激光雷达帧扫描到的稀疏深度帧调整到合适的大小,将用作监督数据的稠密深度帧调整到合适的大小后取一个合适大小的子图;将预处理后的视频帧、稀疏深度帧和稠密深度帧划分为一定长度的帧序列,作为训练数据;
步骤2、进行模型训练,对于每一个预处理后的帧序列,将帧序列中的每一帧按照顺序输入模型,得到每一帧的预测结果;将每一帧的预测结果和每一帧的监督数据输入损失函数中,使用反向传播的方法对模型的权重参数进行更新;
步骤3、使用步骤2中训练好的模型进行预测。
进一步地,步骤1中,使用KITTI数据集中的480个帧序列,21000帧作为训练数据集,把这些帧序列切分为若干个长度为4的帧序列,然后将视频帧和激光雷达帧扫描到的稀疏深度帧调整到375*1242像素大小,将用作监督数据的稠密深度帧调整到375*1242像素大小后取上方370*1242像素的子图。
进一步地,步骤2中包括:
步骤2.1、随机选择一个未被选择过的训练序列输入模型;
步骤2.2、对于一个训练序列((I1,d1,g1),(I2,d2,g2),...,(I4,d4,g4)),其中:Ik、dk,和gk分别是输入视频帧、输入稀疏深度帧和用于监督的半稠密深度帧,按顺序将每一帧输入模型,得到预测帧序列(p1,p2,...,p4)。然后按照如下方式计算损失:
其中,L1和L2是范数损失函数,其中,L1为平均绝对值误差,L2为平均平方误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010727956.7/2.html,转载请声明来源钻瓜专利网。