[发明专利]一种基于深度学习的数字视频稳像方法有效
申请号: | 201811485029.8 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109862253B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 苗壮;王一鸣;黄倩;张睿;王家宝;李阳;张迪 | 申请(专利权)人: | 中国人民解放军陆军工程大学;南京荟英电子科技有限公司 |
主分类号: | H04N5/232 | 分类号: | H04N5/232;G06N3/04;G06N3/08 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210007 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 数字视频 方法 | ||
1.一种基于深度学习的数字视频稳像方法,其特征在于:包括如下步骤:
步骤1:获取稳定视频帧,并利用计算机在稳定视频中加入随机抖动,构建一个用于训练视频稳像网络的数据集,所述数据集中包含成对的抖动和稳定的视频帧;
步骤2:构建一个深度卷积神经网络,所述网络可以实现将抖动的视频转换为稳定视频;
步骤3:构造一个损失函数,所述损失函数包括视频帧的稳定损失和SSIM损失,利用该损失函数训练深度卷积神经网络,获得深度视频稳像网络模型参数;
步骤3具体包括如下步骤:
构建视频帧稳定性恢复损失,视频帧的稳定损失为:
Lstab(Ft,It)=Lpixel(Ft,It)+λLfeature(Ft,It),其中Lpixel(Ft,It)是像素级别的损失,Lfeature(Ft,It)是特征级别的损失;
构建SSIM损失,SSIM损失为衡量两帧之间相似度的指标,为结构相似度,该损失为LSSIM(X,Y)=L(X,Y)*C(X,Y)*S(X,Y),其中L(X,Y)是亮度对比因子,C(X,Y)是对比度因子,S(X,Y)是结构对比因子;
优化目标函数为损失函数L=∑i∈{t,t-1}Lstab(Fi+Ii)+ αLSSIM(x,y),其中α为比例系数;
求解目标函数关于特征变换的Ft;
利用网络前向传播求解目标相对网络各层参数;
对各层参数利用随机梯度下降进行参数更新学习。
2.如权利要求1所述的一种基于深度学习的数字视频稳像方法,其特征在于:在步骤1中,构建数据集的具体要求如下:
a、对于需要采集的稳定视频无特殊限制条件,只要该视频满足正常拍摄标准,获取稳定的视频即可;
b、也可以通过GoProHero4的相机同时在相机头上安装一个稳定器,用来采集稳定视频;
c、不同数据源获取的视频稳像帧无需统一尺度大小;
d、采用上述方法构建训练数据集,当数据集规模包含预设数量的稳定视频时,则停止收集数据。
3.如权利要求1所述的一种基于深度学习的数字视频稳像方法,其特征在于:步骤2具体包括如下内容:
深度卷积神经网络由若干个稳像单元构成,其中每个稳像单元由单点卷积层,单层卷积层和单点卷积层构成;
单点卷积层和单层卷积层之间加入批量归一化与非线性激活单元;给定一个抖动的视频帧,经过该深度视频稳像网络后输出一个稳定视频帧。
4.如权利要求1所述的一种基于深度学习的数字视频稳像方法,其特征在于:步骤3之后还包括步骤4:模型学习完毕后,即可利用该网络输入抖动视频帧,网络的输入即为稳像之后的视频帧;
在步骤4中,模型学习得到模型参数,通过输入任意一个有抖动的视频帧,网络通过将有抖动的视频帧与网络模型中的参数进行计算,网络的输出即为稳定后的视频帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学;南京荟英电子科技有限公司,未经中国人民解放军陆军工程大学;南京荟英电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811485029.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像拍摄方法及装置
- 下一篇:摄像头切换的方法、系统及存储介质