[发明专利]一种基于卷积神经网络的多重帧插值方法有效
申请号: | 201910300915.7 | 申请日: | 2019-04-15 |
公开(公告)号: | CN110191299B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 陈耀武;周橹楠;田翔;刘雪松 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04N7/01 | 分类号: | H04N7/01;H04N5/14;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 多重 帧插值 方法 | ||
1.一种基于卷积神经网络的多重帧插值方法,包括以下步骤:
(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;
(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、随机反置时域帧顺序以及图像全局亮度线性调整处理,以实现对训练集的数据增强;
(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络,其中,所述相位子网络包括:
特征提取模块,其包括若干个依次连接的卷积层、非线性层以及平均池化层,其输入为3通道数据,用于提取并输出尺寸为输入图像的1/4的特征图;
四层金字塔结构,其输入端与特征提取模块的输出连接,且下采样采用平均池化层,用于对特征图再进行特征提取;
复数Gabor滤波器,其作用于金字塔的每层,用于提取每层特征图的相位信息;
相位差计算模块,根据复数Gabor滤波器输出的首帧对应的相位信息和尾帧对应的相位信息,计算尾帧相对于首帧的相位差;
第一解码模块,其为以卷积层、非线性层以及双线性上采样层为单个尺度的四个尺度的网络,以金字塔四层上的相位差分别作为第一解码模块四个尺度对应的输入,用于输出相位差特征图;
编码子网络为以卷积层、非线性层以及平均池化层为单个尺度的五个尺度的网络,其输入为6通道数据,用于提取输入图像的运动特征图;
多端解码网络包括:
第二解码模块,其结构与编码子网络结构对称,在相同尺寸下,采用跳跃连接方式连接编码子网络和第二解码模块,用于对编码子网络输出的运动特征图进行前四个尺度的复原得到运动特征图;
多端解码模块,其包含卷积层和非线性层,输入为相位子网络输出的相位差图和第二解码模块输出的运动特征图按照通道数排布形成的6通道数据,输出包括n个分支,第一个分支与最后一分支输出首帧和尾帧对应时刻的光流场图,剩下的中间分支输出中间时刻的光流场图、图像融合权重图以及光流场融合权重图;
合成子网络包括:
图像变换模块,用于针对每个中间时刻,根据光流场融合权重图和光流场图合成新光流场图,再根据光流场图、新光流场图以及图像融合权重图进行图像变换,生成2个候选帧;
合成模块,其包含卷积层和非线性层,针对每个中间时刻,其输入为图像变换模块输出的2个候选帧,输出的残差信号加回输入,得到中间时刻的插值图像;
(4)根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数;
(5)利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型;
(6)应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
2.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,步骤(2)中,采用在线数据增强的方式对训练集的数据增强,包括:
以一定的概率随机水平垂直翻转帧图像、随机90度旋转帧图像;
随机在每帧图像上截取方形小区域作为深度卷积神经网络的输入图像;
随机反置每个训练样本中连续n帧图像的顺序,以实现对训练样本在运动方向上的数据平衡;
针对需要进行线性亮度调整的训练样本,在一定范围内按照均匀分布选取两个调整率,应用于首帧、尾帧的亮度调整,在首帧和尾帧对应的调整率之间按照均匀的线性比例选取调整率对相应的中间帧进行亮度调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910300915.7/1.html,转载请声明来源钻瓜专利网。