[发明专利]一种基于注意力机制深度循环网络的旧电影闪烁修复方法在审
申请号: | 201910626289.0 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110475118A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 李晓光;刘晨;吴超玮;卓力 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04N19/42 | 分类号: | H04N19/42;H04N19/587 |
代理公司: | 11203 北京思海天达知识产权代理有限公司 | 代理人: | 刘萍<国际申请>=<国际公布>=<进入国 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 激活函数 残差块 卷积 修复 注意力机制 循环网络 反卷积 闪烁 离线 数字图像处理 双曲正切函数 编码器模块 时序 结构组成 亮度曲线 图像闪烁 线性单元 数据处理 上采样 下采样 正则化 种层 算法 注意力 修正 电影 网络 | ||
1.一种基于注意力机制深度循环网络的旧电影闪烁修复方法,包括离线部分和在线部分;其特征在于,离线部分由训练数据处理、闪烁修复的注意力深度循环网络框架搭建和训练组成,在线部分则是图像闪烁修复;
所述的离线部分,具体内容如下:
(1)训练数据处理
训练集包括各种运动的物体以及不同的运动类型;
采用的测试数据集,包括旧电影视频资料;
(2)闪烁修复的注意力深度循环网络框架搭建和训练
在基于注意力机制的图像转换网络中,输入为待处理图像的相邻5帧,分别是It-4、It-3、It-2、It-1、It,以及输出修复帧的前一帧Ot-1,经过一个以基于注意力机制的编解码网络为主体的图像转换网络,通过在线训练的方式产生对应输出帧,并且在每一个时间步骤中,网络根据注意力机制得出每一输入帧所占权重,学习生成输出帧Ot,然后再将当前的输出帧作为下一时间步骤的输入帧;
采用的深度神经网络模型包含5种不同层结构,分别为注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层;
网络的注意力层含有一个平均池化层、两个卷积层、修正线性单元ReLU激活函数和softmax激活函数;其中,卷积层分别使用7×7和3×3的卷积核;
在卷积下采样层中,使用5个卷积层,其中将的输入图像和上一个时间步输出图像这两个分支输入进行并行处理,首先分别经过一个使用7×7的卷积核的卷积层以及relu激活函数,之后再分别经过一个使用3×3的卷积核的卷积层以及relu激活函数,再将这两个分支得到的特征图进行聚合,经过第三个卷积核为3×3的卷积层以及relu激活函数;
在残差块层中,使用5个残差块进一步提取特征,每个残差块包括两个卷积核为3×3的卷积层以及relu激活函数;
在ConvLSTM层中使用了LSTM网络的结构,但是采用卷积计算代替Hadmard乘法,即使用LSTM建立输入序列的时序关系,且使用卷积神经网络CNN描述图像的空间特征;
在反卷积上采样层中,采用了3个卷积核为3×3的反卷积层、2个relu激活函数以及1个tanh激活函数;最终得到修复后的输出结果图像;
将处理过的数据集通过该网络进行训练,设定训练的迭代次数数,并将每轮训练得到模型保存到文件中;
所述的在线部分,具体内容如下:
图像闪烁修复
利用训练得到的模型对带有亮度闪烁现象的图像序列进行修复,得到闪烁修复后的图像;使用基于注意力机制深度循环网络的闪烁修复方法进行闪烁修复,再得到输出闪烁修复后的图像。
2.根据权利要求1所述的一种基于注意力机制深度循环网络的旧电影闪烁修复方法,其特征在于:
所述离线部分分为2个步骤:
步骤1:训练数据处理
步骤2:闪烁修复的注意力深度循环网络框架搭建和训练
网络由注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层这5种层结构组成;并且每个卷积层之后都加入批正则化层和修正线性单元作为激活函数,最后一个反卷积层加入双曲正切函数作为激活函数,另外在编码器模块中间加入5组残差块和ConvLSTM层,其中每组残差块中包含2个卷积层和1个Relu激活函数;
(1)注意力机制
网络的注意力层含有一个平均池化层、两个卷积层、修正线性单元ReLU激活函数和softmax激活函数;其中,卷积层分别使用7×7和3×3的卷积核;
使用I来表示长度为n的输入视频帧序列,用O来表示长度为n的输出视频帧序列,如公式(1)和(2)所示:注意力机制会从输入序列中提取出一系列编码;
I=[I1,I2,I3,...,In] (1)
O=[O1,O2,O3,...,On] (2)
当要计算输出时间步O2的中间向量时,先使用函数a根据解码器在输出时间步O1的隐藏状态和编码器在各个输入时间步的隐藏状态,来计算softmax运算的输入,其中a函数在这里使用内积运算;之后使用softmax运算输出概率分布,并对编码器各个输入时间步的隐藏状态做加权平均,从而得到当前要计算的输出时间步的中间向量;
令编码器在时间步t的隐藏状态为ht,且总时间步数为T,那么解码器在时间步t'的中间向量为所有编码器隐藏状态的加权平均,如公式(3)所示:
其中Ct’为解码器的中间向量,并且在给定t'时间步的时候,权重at't是使用softmax计算得到的;计算公式如公式(4)所示:
Softmax运算中的et't同时取决于解码器的时间步t'和编码器的时间步t,因此计算时需要使用解码器在时间步t'-1的隐藏状态st'-1,与编码器在时间步t的隐藏状态ht为输入,并通过函数a计算et't,如公式(5)所示:
et't=a(st'-1,ht) (5)
其中函数a是计算两个输入的内积,计算公式如(6)所示:
a(s,h)=s·h (6)
在网络中输入图像经过编码器中的卷积层、ResBlocks层以及ConvLSTM层之后得到中间向量信息;
(2)卷积长短时记忆网络模块
输入图像序列首先通过卷积层,之后通过ResBlocks层,再之后进入ConvLSTM层;在ConvLSTM层中,首先通过遗忘门,遗忘门负责判定从细胞状态中丢弃什么信息;遗忘门通过读取上一时间步骤中信息单元的输出ht-1和当前时间步骤中信息单元的输入xt,t表示输入的连续时间步骤图像序列的每一个时间步骤;遗忘门输出0和1之间的实数;1表示信息完全保留,0则表示信息完全舍弃;经过遗忘门的输出信息接下来进入输入门,输入门负责判定哪些新信息可以加入到当前的信息单元;sigmoid层判定需要更新哪些信息,另外通过tanh层生成的向量为C~t,作为备选的更新内容;
将上一个时间步的状态与遗忘门的权重相乘,确定丢弃的信息;接着计算输入门中得到的信息it与C~t相乘,并将结果经过遗忘门的信息相加,得到新的信息单元状态,这个信息单元会不断变化来更新状态;另外输出门负责判定最终输出哪些信息;通过sigmoid层确定信息单元的哪些部分将作为输出;然后把信息单元状态通过tanh层进行处理,得到在-1到1之间的值,将这个值乘以sigmoid层的输出,确定最终的输出信息;
而ConvLSTM的计算方式是将原始LSTM中各个门之间的连接由原来的对应元素相乘换成了卷积,并且状态与状态之间的也使用卷积连接;最终通过卷积操作之后,ConvLSTM层既能获得序列的时序关系,还能通过卷积操作提取图像的空间特征;
(3)损失函数
利用基于VGG网络的感知损失网络计算转换后的图像Ot与相同时间序号输入图像It之间的内容相似度,使得感知损失不受图像亮度变化影响;感知损失函数的定义如公式(7):
Lp为感知损失函数,其中,Ot(i)为第t时刻图像转换网络输出的第i张图像,It(i)为第t时刻网络输入的第i张图像,N是一帧图像中总的像素数,T为所处理图像序列总的时间长度,||||1为计算1-范数,φl表示VGG19网络第l层的特征图,我们选择4层来计算感知损失;
采用光流网络所输出的光流图来计算相邻输出帧之间的短期时间损失;公式如(8)所示:
其中,Ot(i)为第t时刻图像转换网络输出的第i张图像,是Ot(i)通过光流网络所得出的光流图,M(i)t->t-1是第i张输入图像It和经过光流网络输出的图像It-1经过计算平方差得到的的掩膜图,||||1为计算1-范数,N是一帧图像中总的像素数,T为所处理图像序列总的时间长度,光流网络Ft在模型中使用flownet网络模块来计算训练过程中的光流信息;
使用长期时间一致性的时间损失来计算第一个输出帧和所有输出帧的长期时间损失;||||1为计算1-范数,公式如(9)所示:
其中,Ot(i)为第t时刻图像转换网络输出的第i张图像,是Ot(i)通过光流网络所得出的光流图,M(i)t->1是第i张输入图像It和经过光流网络输出的图像I1经过计算平方差得到的的掩膜图,||||1为计算第一范式,N是一帧图像中总的像素数,T为所处理图像序列总的时间长度,光流网络Ft在模型中使用flownet网络模块来计算训练过程中的光流信息;
总体损失如公式(10)所示:
L=λpLp+λstLst+λltLlt (10)
总体损失为感知损失、短期时间损失和长期时间损失的加权和,其中感知损失、短期时间损失和长期时间损失的权值分别设置为10、100、100;
闪烁修复的注意力深度循环网络搭建完成,将步骤1中收集得到的训练样本数据放入网络中训练,训练完成后得到去除闪烁模型;
所述在线部分:图像闪烁修复
利用训练得到的模型对带有亮度闪烁现象的图像序列进行修复,得到闪烁修复后的图像;使用基于注意力机制深度循环网络的闪烁修复方法进行闪烁修复,再得到输出闪烁修复后的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910626289.0/1.html,转载请声明来源钻瓜专利网。