[发明专利]一种基于深度学习的视频超分辨率重建方法有效

专利信息
申请号: 201810864938.6 申请日: 2018-08-01
公开(公告)号: CN109102462B 公开(公告)日: 2023-04-07
发明(设计)人: 章东平;张香伟;倪佩青 申请(专利权)人: 中国计量大学
主分类号: G06T3/40 分类号: G06T3/40;G06N3/0475;G06N3/0464;G06N3/044;G06N3/045;G06N3/048;G06N3/094
代理公司: 杭州浙科专利事务所(普通合伙) 33213 代理人: 吴秉中
地址: 315470 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度学习的视频超分辨率重建方法,其技术关键在于(1)给定同一镜头下连续图像,网络预测更清晰的视频帧图像;(2)采用双向循环神经网络和深度3D反向投影网络;(3)本发明将两个网络合并成一个网络,此网络作为本发明的深度学习的视频超分辨率重建的网络(4)训练数据为有标签,将处理的数据视频帧通过此网络得到损失函数。本发明最终目标是输入低分辨率视频帧经过双向循环网络预测视频帧的时间和空间上的信息,经过3D投影网络再预测视频帧的细节信息,经过反复训练得到一个最优模型,这个模型应用于去除相机的抖动、物体快速运动的模糊、失焦模糊、镜头光学模糊、景深变化、压缩失真和噪声等降质因素的影响。
搜索关键词: 一种 基于 深度 学习 视频 分辨率 重建 方法
【主权项】:
1.一种基于深度学习的视频超分辨率重建方法,其特征在于包括如下步骤:步骤1:训练与测试数据准备:(1)公开数据集采集:采集两组内容相同的公开视频M对,一组为低分辨率视频,另一组为相应的高清视频;(2)私有数据集采集:用不同的手机和不同的摄像机拍摄高清视频,总共采集N组高清视频,高清视频用Hi(i=1、2、…N)表示;将采集的高清视频Hi使用对抗网络生成具有多种相机运动、多种场景深度以及多种运动模糊低分辨率视频,其中生成相机运动Via(a=1、2、…na)组,生成不同场景深度Vib(b=1、2、…nb)组,生成运动模糊Vic(c=1、2、…nc)组,总共采集P(P=a+b+c)组低分辨率视频;然后将内容相同的低分辨率视频与高清视频对应组对,集合成P组视频对;步骤2:视频对数据增强:将采集的M对公开视频和用对抗网络生成的P对视频生成视频帧,把这些视频帧通过平移、旋转图像(0°,90°,180°,270°)和缩放图像(1/4,1/3,1/2)来增加数据;总共收集7×(M+P)组视频对,其中0.9×7×(M+P)组视频对作为训练数据,0.1×7×(M+P)组视频对作为测试数据,且训练数据和测试数据不交叉;步骤3:视频对数据处理:将7×(M+P)对视频转化成连续的图像,用Vit(i=1、2、3…N,t=1、2、…7×(M+P))表示视频的每一帧,把处理的视频图像数据存为HDF5(Hierarchical Data Format)文件;步骤4:设计网络结构:本发明所提出的网络模型的体系结构将连续的3帧作为输入,前向循环子网络输入正向低分辨率视频帧Vit,所述正向视频帧从V1t帧到VNt帧;反向循环子网络输入反向低分辨率视频帧Vit,所述反向视频帧从VNt帧到V1t帧;选定前向子网络和反向子网络隐藏层深度为n,双向循环神经网络后连接一个3D卷积层,每个卷积块的深度代表卷积后的特征数量;紧接着是放大投影卷积单元和缩小投影卷积单元,选定放大投影单元深度为f,选定缩小投影单元深度为f,所述放大投影单元依次是将缩小投影单元输出的结果作为3D卷积的输入,输出为Lt‑1,接着进行3D反卷积,输出为H0t,再一次进行3D卷积,输出为Lt,Lt与Lt‑1相减得到Et,Et进行3D卷积得到H1t,H1t与H0t相加得到Ht;所述缩小投影单元依次是将放大投影单元输出的结果作为3D卷积的输入,输出为Ht1,再一次进行3D卷积输出为L0t,紧接着进行3D反卷积,输出为H0t,H0t与Ht1相减得到Et,Et进行3D卷积得到L1t,L1t与L0t相加得到Lt;经过f个放大投影单元和f个缩小投影单元之后是连接层,连接层将所有放大投影单元输出的特征融合,将融合的特征进行3D卷积,输出结果;步骤5:训练:选定深度神经网络输入层节点数q个、输出层节点数e个、隐藏层数r层和隐藏层节点数t个、batch_size大小为u,随机初始化各层的连接权值W和偏置b,给定学习速率η,选定激活函数RELU,选定损失函数Loss;选定损失函数Loss,在一种基于深度学习的视频超分辨率重建方法研究中采用的训练集为有标签数据,所述标签为低分辨率视频帧所对应的原始高分辨率视频帧;采用欧式距离的计算方法,当前视频帧图像矩阵有W×H个元素(像素点),用W×H个元素值(A1,A2,...,AW×H)构成原始高分辨率视频帧图像的一维向量,用(a1,a2,...,aW×H)构成重建高分辨率视频帧图像的一维向量,然后利用数学上的欧式距离公式计算这两个向量之间的距离,距离越小就说明两幅图像越相似;反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型;步骤6:测试:对用于测试的低分辨率视频进行镜头分割,把同一镜头的低分辨率视频输入到训练好的神经网络模型中,模型的输出即为重建后的超分辨率视频。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学,未经中国计量大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810864938.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top