[发明专利]一种基于深度学习的数字视频稳像方法有效
申请号: | 201811485029.8 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109862253B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 苗壮;王一鸣;黄倩;张睿;王家宝;李阳;张迪 | 申请(专利权)人: | 中国人民解放军陆军工程大学;南京荟英电子科技有限公司 |
主分类号: | H04N5/232 | 分类号: | H04N5/232;G06N3/04;G06N3/08 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210007 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 数字视频 方法 | ||
本发明提供一种基于深度学习的数字视频稳像方法包括如下步骤:步骤1:获取稳定视频帧,并利用计算机在稳定视频中加入随机抖动,构建一个用于训练视频稳像网络的数据集,所述数据集中包含成对的抖动和稳定的视频帧;步骤2:构建一个深度卷积神经网络,所述网络可以实现将抖动的视频转换为稳定视频;步骤3:构造一个损失函数,所述损失函数包括视频帧的稳定损失和SSIM损失,利用该损失函数训练深度卷积神经网络,获得深度视频稳像网络模型参数。本发明提供的基于深度学习的数字视频稳像方法采用深度学习的方法构造深度卷积神经网络,算法的复杂度降低使得本发明的平均运行时间会得到缩短。
技术领域
本发明属于视频处理技术领域,具体的涉及一种基于深度学习的数字视频稳像方法。
背景技术
随着数字视频时代的到来,数字视频被广泛用于生活中的各种场景。但由于手持式相机易受到拍摄主体的抖动和采集环境的影响,相邻帧之间往往包含不规则的全局运动,严重影响了视频的质量。视频稳像的目的就是通过数字化的方法对拍摄的视频进行抖动校正处理,实现数字视频中抖动的去除。虽然视频稳像方法经过了长时间的研究,但由于实际抖动的频率的多样性,传统的数字稳像方法很难处理于多种频率不同的抖动。
为了解决上述的关键问题,同时随着机器学习的迅猛发展,大量学者希望通过机器学习的方式,让机器通过抖动和稳定的视频数据比较自动发现视频稳像的算法。不过目前,深度学习中的卷积神经网络用于学习自动稳像模型还属于一个崭新的领域。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于深度学习的数字视频稳像方法,克服了现有技术存在的视频效果不佳等技术缺陷。
为达成上述目的,本发明采用如下技术方案:一种基于深度学习的数字视频稳像方法包括如下步骤:步骤1:获取稳定视频帧,并利用计算机在稳定视频中加入随机抖动,构建一个用于训练视频稳像网络的数据集,所述数据集中包含成对的抖动和稳定的视频帧;步骤2:构建一个深度卷积神经网络,所述网络可以实现将抖动的视频转换为稳定视频;步骤3:构造一个损失函数,所述损失函数包括视频帧的稳定损失和SSIM损失,利用该损失函数训练深度卷积神经网络,获得深度视频稳像网络模型参数。
优选地,在步骤1中,构建数据集的具体要求如下:a、对于需要采集的稳定视频无特殊限制条件,只要该视频满足正常拍摄标准,获取稳定的视频即可;b、也可以通过GoProHero4的相机同时在相机头上安装一个稳定器,用来采集稳定视频;c、不同数据源获取的视频稳像帧无需统一尺度大小;d、采用上述方法构建训练数据集,当数据集规模包含预设数量的稳定视频时,则停止收集数据。
优选地,步骤2具体包括如下内容:深度卷积神经网络由若干个稳像单元构成,其中每个稳像单元由单点卷积层,单层卷积层和单点卷积层构成;单点卷积层和单层卷积层之间加入批量归一化与非线性激活单元;给定一个抖动的视频帧,经过该深度视频稳像网络后输出一个稳定视频帧。
优选地,步骤3具体包括如下内容:
视频稳像的损失函数包括视频帧的稳定损失和SSIM损失;
视频帧的稳定损失为Lstab(Ft,It)=Lpixel(Ft,It)+λLfeature(Ft,It)其中Lpixel(Ft,It)是像素级别的损失,Lfeature(Ft,It)是特征级别的损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学;南京荟英电子科技有限公司,未经中国人民解放军陆军工程大学;南京荟英电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811485029.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像拍摄方法及装置
- 下一篇:摄像头切换的方法、系统及存储介质