[发明专利]一种视频的立体场景重建方法有效
申请号: | 202010727956.7 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111882661B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 高跃;李仁杰;赵曦滨 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06N3/04;G06N3/08 |
代理公司: | 北京律谱知识产权代理有限公司 11457 | 代理人: | 黄云铎;孙红颖 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 立体 场景 重建 方法 | ||
1.一种基于视频的立体场景重建方法,其特征在于包括如下步骤:
步骤1、训练样本处理,将视频帧和激光雷达帧扫描到的稀疏深度帧调整到合适的大小,将用作监督数据的稠密深度帧调整到合适的大小后取一个合适大小的子图;将预处理后的视频帧、稀疏深度帧和稠密深度帧划分为一定长度的帧序列,作为训练数据;
步骤2、进行模型训练,对于每一个预处理后的帧序列,将帧序列中的每一帧按照顺序输入模型,得到每一帧的预测结果;将每一帧的预测结果和每一帧的监督数据输入损失函数中,使用反向传播的方法对模型的权重参数进行更新;
步骤3、使用步骤2中训练好的模型进行预测
步骤3.1、将输入视图视频帧和稀疏深度帧处理成步骤1中的大小并按照时间顺序形成一个帧序列;
步骤3.2、对于帧序列中的每一帧,将其输入编码器中得到时间连续性的特征:
步骤3.2.1、对于视图视频帧,将其输入到视图特征编码器中,得到编码后的视图特征;
步骤3.2.2、对于稀疏深度帧,将其输入到稀疏深度特征编码器,得到连续稀疏深度特征;
步骤3.2.3、将步骤3.2.1得到的视图特征和步骤3.2.2.得到的连续稀疏深度特征连接,得到完整的编码后的时间连续性特征;
步骤3.3、将步骤3.2中得到的时间连续性特征输入稠密深度解码器,得到当前帧的重建结果;稠密深度解码器依次包括:1*1卷积;双线性上采样;残差连接;Resblock;上采样;残差连接;Resblock;残差连接;上采样;Resblock;批归一化;ReLU激活函数;1*1卷积。
2.根据权利要求1所述的基于视频的立体场景重建方法,其特征在于,步骤1中,使用KITTI数据集中的480个帧序列,21000帧作为训练数据集,把这些帧序列切分为若干个长度为4的帧序列,然后将视频帧和激光雷达帧扫描到的稀疏深度帧调整到375*1242像素大小,将用作监督数据的稠密深度帧调整到375*1242像素大小后取上方370*1242像素的子图。
3.根据权利要求1所述的基于视频的立体场景重建方法,其特征在于,步骤2中包括:
步骤2.1、随机选择一个未被选择过的训练序列输入模型;
步骤2.2、对于一个训练序列((I1,d1,g1),(I2,d2,g2),...,(I4,d4,g4)),其中:Ik、dk,和gk分别是第k帧输入视频帧、输入稀疏深度帧和用于监督的半稠密深度帧,按顺序将每一帧输入模型,得到预测帧序列(p1,p2,...,p4);然后按照如下方式计算损失:
其中,L1和L2是范数损失函数,其中,L1为平均绝对值误差,L2为平均平方误差;
步骤2.3、使用步骤2.2中描述的损失函数计算梯度,并使用lr=0.001,β1=0.9,β2=0.999的ADAM优化器更新网络参数,其中lr是优化器的学习率,β1和β2是权重衰减超参数;
步骤2.4、重复步骤2.1到步骤2.3直到所有序列都被选择过,然后将所有序列都标记为未被选择过;
步骤2.5、重复步骤2.1到步骤2.4直到模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010727956.7/1.html,转载请声明来源钻瓜专利网。