[发明专利]一种基于深度学习的视频去抖方法有效

申请号：	201910670613.9	申请日：	2019-07-24
公开（公告）号：	CN110276739B	公开（公告）日：	2021-05-07
发明（设计）人：	凌强;赵敏达;李峰	申请（专利权）人：	中国科学技术大学
主分类号：	G06T5/50	分类号：	G06T5/50;H04N5/21
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	安丽;邓治平
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习视频方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的视频去抖方法，其特征在于，包括以下步骤：

Step1：训练阶段，将连续的抖动帧序列作为深度网络的输入，将稳定的帧作为深度网络的输出进行有监督训练，生成带权重的深度网络；

Step2：测试阶段，将连续的抖动帧序列作为带权重的深度网络的输入，生成像素级的映射图，并变换生成稳定帧；

所述Step1中训练阶段有监督训练的方法如下：

(1)深度网络采用孪生网络结构，该孪生网络的两个分支采用相同的全卷积网络结构，并共享参数，两个分支的输入为相邻的抖动帧序列:S_t＝{I_t-ω，...，I_t，...I_t+ω，}和S_t+1＝{I_t-ω+1，...，I_t+1，...I_t+ω+1，}，I_t表示t时刻的抖动帧，ω＝15表示去抖所考虑的邻域范围；网络的预测为与输入图像尺寸相同，记长和宽分别为W和H，且通道数为2的映射图T＝{T_x，T_y}，对于T中的每个点，T_x(i，j)表示抖动帧I_t中应该被映射到稳定帧中(i,j)点的像素的横坐标；T_y(i，j)表示对应像素的纵坐标；通过这种逐点的映射，生成t时刻的稳定帧

(2)训练阶段采用的数据集是公开的DeepStab数据集，设计的孪生网络的一个分支采用级联三层的全卷积网络，每一层网络是一个先下采样后上采样的全卷积网络模型，但是在层间添加了直连结构，实现层间的特征信息的有效传输，通过跨层的直连结构，将上层信息引入到下一层中，使得下一层学习相对于上一层的残差，这样的结构在更深的层中学习到更加准确的映射图；

(3)损失函数设计如下：

其中L_content表示内容损失项，L_shape表示形状损失项，L_temporal表示帧间相似性损失项。

2.根据权利要求1所述的基于深度学习的视频去抖方法，其特征在于：所述用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似，具体定义如下：

其中λ₁＝λ₂＝1，表示的对应像素的二范数之差，表示将两幅图像经过VGG-16后最后一层池化层的输出之差。

3.根据权利要求1所述的基于深度学习的视频去抖方法，其特征在于：所述形状损失项用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真，具体定义如下：

其中λ₃＝λ₄＝1；

项用来在训练初始阶段引导T_t的生成并加速训练过程；

为了保持估计的映射图满足刚性变换的需求，添加了L_grid(T_t)，具体如下：

(1)对于给定的抖动帧和真实稳定帧，计算抖动帧到稳定帧的单应矩阵；

(2)利用该单应矩阵将抖动帧变换到稳定视角下；

(3)在(2)生成的图像中取最大内接矩形作为有效区域；

(4)在该有效区域内设置随机大小的矩形并记尺寸为w_r×h_r，并在该矩形内均匀采样K个特征点，记为{(x₁，y₁)，(x₂，y₂)，...，(x_K，y_K)}，这K个点在T中的对应位置的取值记为