[发明专利]一种用于监控视频增强的渐进式特征流深度融合网络有效
申请号: | 202011230728.5 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112348766B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 陈瑞;杨航;宫霄霖;张衡 | 申请(专利权)人: | 天津大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06T5/00;G06N3/0455;G06N3/0464;G06N3/048 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 监控 视频 增强 渐进 特征 深度 融合 网络 | ||
本发明公开一种用于监控视频增强的渐进式特征流深度融合网络,包括用于对监控视频进行亮度增强的多级特征流融合网络;所述多级特征流融合网络包括U形融合模块UFM,输入与所述U形融合模块UFM的输出连接的跨尺度融合模块CFM;所述U形融合模块UFM的输入连接第一基本卷积层的输出,所述跨尺度融合模块CFM的输出第二基本卷积层的输入;所述第一基本卷积层的输入与输入侧结合一卷积层的渗漏整流线性单元的输出连接,所述第二基本卷积层的输出连接帧重建模块的输入。本发明能解决监控视频中存在的低光照的问题。
技术领域
本发明涉及监控视频增强技术领域,特别是涉及一种用于监控视频增强的渐进式特征流深度融合网络。
背景技术
监控视频增强技术旨在将原始监控场景采集的视频增强。由于原始监控视频的采集场景复杂,采集到的视频通常包含噪声、模糊等退化,且当监控视频采集场景的光照强度较低时,噪声和模糊的程度会更加严重。监控视频增强技术在现实中有着广泛的需求,如实时增强视频质量辅助监控分析,提升人脸识别、车辆和文字检测等高层次视觉任务的精度。通常从同一帧中恢复出清晰的帧有多个可能的解,因此视频增强是典型的不适定问题,需要根据先验约束找出最优的退化帧到基准帧(Ground Truth,GT)间的映射关系,达到更好视频增强效果。
传统低光照增强技术主要有基于直方图均衡化的方法和基于Retinex理论的方法。基于直方图均衡化的方法通过扩大图像的动态范围进而增强图像对比度,但可能会导致过度增强。基于Retinex的方法依赖于人工选择参数,并且会放大噪声。基于深度学习的方法主要是通过从大量的数据集中学习低对比度单帧图像到高对比度单帧图像的映射。一些研究采用卷积神经网络模拟Retinex算法的处理过程,首先将输入的单帧图像分解成光照图和反射图,然后对这两个分量分别处理,最后重建出增强后的单帧图像。为了解决黑暗区域的大量存在的伪影和噪声,一些研究使用多分支卷积神经网络对不同深度的特征进行重建,最后融合这些重建特征,进而得到亮度增强后的单帧图像。尽管这些方法在合成数据集上取得了较好的效果,但在真实世界的数据中往往会产生伪影和色彩偏移。基于生成对抗网络的深度学习模型可以使用未配对的数据集进行训练。生成对抗网络模型中包含两个网络进行对抗训练。一是判别网络,目标是尽可能准确判断一个样本是来自于真实数据还是生成网络产生的;另一个是生成网络,目标是尽量生成判别网络无法区分来源的样本。这两个目标相反的网络进行交替训练,直到判别网络无法区分数据来源。尽管其在真实场景下取得了较好的结果,但需要精心地挑选未配对的图像,以达到良好的亮度增强效果。
早期的视频去模糊方法通常假设视频中存在锐利图像结构,并通过对其进行插值恢复中间帧。这种方法利用了相邻帧中存在的锐利图像结构信息来恢复中间帧,但往往会产生过于平滑的效果,因为视频中不总是存在足够的锐利结构信息。基于变分法的视频去模糊算法通过建立各种先验来约束中间帧和光流进行视频去模糊。这种基于光流的运动模糊估计方法的性能通常受限于光流估计的准确性。为了改善这种缺陷,一些研究使用具有强大表示能力的卷积神经网络估计光流,然后通过传统反卷积算法来恢复中间帧。
卷积神经网络具有强大的表示能力,可以从大量的数据中建立模糊图像到清晰图像之间的映射。基于编码器和解码器架构的卷积神经网络被成功应用于视频去模糊中。为了利用相邻帧之间的冗余信息,基于深度递归神经网络的模型被提出用于视频去模糊。这类模型通过反复利用前一帧的信息来帮助恢复中间帧,但其对相邻帧信息的利用还不够充分。由于相邻帧之间存在一定抖动,必须先将输入帧序列对齐才能进一步融合,针对这个问题基于光流对齐的深度学习模型被提出。这类模型通过光流来描述运动并做出运动补偿从而达到对齐的目的。还有一些模型使用3D卷积捕获相邻帧之间的时间和空间信息,从而更好地恢复中间帧图像,但这些模型对时间和空间冗余信息的利用不够充分。一些模型提出时间和空间注意力机制,来更好地融合对齐后的图像。这些模型在特定的公开数据集上取得了良好的效果,但这些数据集是由移动设备采集,再经人工合成的较为理想的数据集。然而监控场景下,视频质量受多种因素干扰,并且退化复杂,使得两者的数据分布差异很大,因此在监控场景下这些模型是不适用的。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011230728.5/2.html,转载请声明来源钻瓜专利网。