[发明专利]一种基于深度神经网络的移除图像内台标和字幕的方法有效

申请号：	201811286931.7	申请日：	2018-10-31
公开（公告）号：	CN109472260B	公开（公告）日：	2021-07-27
发明（设计）人：	王炜;李杰;温序铭;谢超平	申请（专利权）人：	成都索贝数码科技股份有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/34;G06N3/04;G06N3/08
代理公司：	成都弘毅天承知识产权代理有限公司 51230	代理人：	李春霖
地址：	610041 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络图像台标字幕方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，包括如下步骤：

S1、建立图像修复模型：由类“U-net”网络和GAN组成图像修复模型，类“U-net”网络作为GAN的Generator；

S2、训练集图像预处理：将训练集中的图像裁剪或缩放至限定大小，得到训练图像，根据下台标和字幕所在区域，将训练图像划分为区域1、区域2和区域3，其中区域1为台标所在区域，区域2为字幕所在区域，并在区域1和区域2中分别对应生成Mask1和Mask2；

S3、处理训练数据：将未经处理的训练图像作为真实图像Pt；将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；

S4、训练图像修复模型：分别将训练图像P1和训练图像P2输入类“U-net”网络中进行计算，得到各自的输出图像Pout，分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分，然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc；

将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入，基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L，利用随机梯度下降法对图像修复模型的网络参数进行训练更新，直至判别器无法迭代；

再从训练集中另外选取图像，重复执行S2至S4，得到训练好的图像修复模型；

S5、图像修复：将需要去除台标和字幕的图像或视频预处理后，输入训练好的图像修复模型中，将图像修复模型输出的图像与原图像结合，得到最终图像输出；

所述S4中类“U-net”网络由卷积层和反卷积层构成，类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程，所述下采样过程由步长为2的卷积核进行特征尺寸缩小，上采样过程由步长为1/2的卷积核进行特征尺寸放大；所述类“U-net”网络对训练图像P1和训练图像P2进行计算时，每一卷积和反卷积操作后都有一个ReLU激活函数。

2.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到，

外部偏差L1为真实图像Pt的不变区像素点与输出图像Pout的不变区像素点差异；

内部偏差L2为真实图像Pt的Mask区像素点与输出图像Pout的Mask区像素点差异；

可感知偏差L3和风格偏差L4：将真实图像Pt、输出图像Pout和组合图像Pc输入提前训练好的用于计算偏差的VGGNet19模型，分别获取真实图像Pt、输出图像Pout和组合图像Pc在VGGNet19模型中conv3_4、conv4_4和conv5_4层后的高层特征图Pt(_3、_4、_5)、Pout(_3、_4、_5)和Pc(_3、_4、_5)共9张特征图，由上述9张特征图求得可感知偏差L3和风格偏差L4；

内部间隔偏差L5为输出图像Pout的Mask区像素矩阵中所有像素点与相应右邻点的差值以及与相应下邻点的差值的和；

GAN判别式损失L6：将输出图像Pout的Mask区缩放到与GAN网络适配的尺寸，并将缩放后的Mask区与组合图像Pc输入GAN中，训练GAN网络，GAN的损失即为判别式损失。

3.根据权利要求2所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述可感知偏差L3和风格偏差L4的计算具体为：

可感知偏差L3：计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组差值，计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组差值，将六组差值相加便得到可感知偏差L3；

风格偏差L4：计算Pout(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组自协方差矩阵差值；计算Pc(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组自协方差矩阵差值，将六组自协方差矩阵差值相加便得到风格偏差L4。

4.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S5具体包括如下步骤：

S5.1、视频预处理：若需要去除台标和字幕的是视频，则解码视频内容，得到按帧分隔的视频图像；

S5.2、指定修补区域：人工或自动指定待处理图像或视频图像中的待修补区域，裁剪出待处理图像或视频图像中包含待修补区域的切片，裁剪出的切片大小与S2中的训练图像大小一致，并将待修补区域的像素点亮度值置为0，得到待修补切片；

S5.3、输入图像修复模型：将待修补切片输入训练好的图像修复模型中，得到修复分片；

S5.4、输出修复结果：将修复分片与S5.2中待处理图像或视频图像中切片外的图像结合，得到最终图像输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司，未经成都索贝数码科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811286931.7/1.html，转载请声明来源钻瓜专利网。