[发明专利]一种基于深度学习的多帧视频去压缩噪声方法有效
申请号: | 201910861015.X | 申请日: | 2019-09-11 |
公开(公告)号: | CN110610467B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 徐烂烂;陈梅丽;谢亚光 | 申请(专利权)人: | 杭州当虹科技股份有限公司 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06N3/04 |
代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 林伟 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 视频 压缩 噪声 方法 | ||
1.一种基于深度学习的多帧视频去压缩噪声方法,其特征是,具体包括如下步骤:
(1)准备数据:构建数据集,获得噪声图像,将连续的3帧噪声图像作为一组,对每组图像进行图像块采样,模型的输入由这些图像块组成;
(2)预去噪模块PreDenoise的设计:构造了一个预去噪模块PreDenoise,具体包含:3D卷积层+BatchNorm层+ReLU激活层为一组共4个,以及3D卷积层+ReLU激活层为一组共2个;3D卷积层的内核大小均为3*3*3,填充模式是SAME,除了最后一个卷积层的内核数量为3,其余数量均为64,且卷积步长均为1,该模块的输入是It-1,It,It+1,输出是I′t-1,I′t,I′t+1;
(3)运动补偿模块MC的设计:由于多帧图像处理思想相同,故采用超分MFQE中的运动补偿子网络进行运动补偿;具体为:将经过预去噪模块得到的连续3帧图像I′t-1,I′t,I′t+1分成两组:I′t-1,I′t和I′t,I′t+1,分别进行运动补偿,得到补偿后的图像
(4)图像增强模块Enhance的设计:构造了一个基于残差模块ResBlock的图像增强模块,具体有1个拼接层,1个卷积层,6个ResBlock模块,2个卷积层,1个ADD层;输入是经过运动补偿后的前后帧和预去噪后的中间帧I′t,输出是中间帧的去噪结果;
(5)将步骤(2)、步骤(3)和步骤(4)的模块连接起来构成多帧图像去噪模型,同时训练这3个模块。
2.根据权利要求1所述的一种基于深度学习的多帧视频去压缩噪声方法,其特征是,在步骤(1)中,具体操作步骤如下:
(11)数据集由不同内容的清晰短视频组成,每个视频有若干帧图像,由于模型需要的数据是连续的多帧图像,因此将每帧图像以PNG格式保存下来,作为噪声图像的标签,而噪声图像是将清晰视频按不同压缩方式进行压缩后,再将每帧图像以PNG格式保存下来;
(12)将连续的3帧噪声图像作为一组,对每组图像进行图像块采样,图像块大小为128*128*3,为了增大数据集,每组图像随机采样5组图像块,即组内每张图像采样位置相同的5个图像块,模型的输入由这些图像块组成,而输入数据对应的标签是由中间帧即第2帧对应的清晰图像取与输入图像块位置相同的5个图像块组成。
3.根据权利要求2所述的一种基于深度学习的多帧视频去压缩噪声方法,其特征是,在步骤(11)中,数据集由250个不同内容的清晰短视频组成,包括动画、电影、运动场景,每个视频有50帧图像,分辨率是1920*1080;其中压缩方式是按H264标准的量化参数QP分别为20、30、40和按MPEG标准的量化参数QP分别为20、30、40,共6种压缩方式。
4.根据权利要求1所述的一种基于深度学习的多帧视频去压缩噪声方法,其特征是,在步骤(4)中,残差模块ResBlock依次由1个2D卷积层、1个ReLU激活层、1个2D卷积层构成,其中:2D卷积层的内核大小均为3*3,除了最后一个卷积层的内核数量为3,其余卷积层的内核数量均为64,且卷积步长均为1。
5.根据权利要求1所述的一种基于深度学习的多帧视频去压缩噪声方法,其特征是,在步骤(5)中,具体包括如下步骤:
(51)获得损失函数:其中,表示噪声图像It对应的清晰图像,表示经过多帧图像去噪模型的去噪图像,|g|表示L1范数;
(52)训练参数:设置训练参数,初始学习率设为10-3,训练迭代次数设定为150个epoch,每训练10个epoch,学习率降1/10,优化算法采用Adam算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州当虹科技股份有限公司,未经杭州当虹科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910861015.X/1.html,转载请声明来源钻瓜专利网。