[发明专利]一种基于条件生成对抗网络的文本图像超分辨率重建方法有效
申请号: | 201811320070.X | 申请日: | 2018-11-07 |
公开(公告)号: | CN109410239B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 王雨阳;苏丰 | 申请(专利权)人: | 南京大学 |
主分类号: | G06T7/136 | 分类号: | G06T7/136;G06T3/40;G06N3/04;G06N3/08 |
代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 王斌 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 生成 对抗 网络 文本 图像 分辨率 重建 方法 | ||
1.一种基于条件生成对抗网络的文本图像超分辨率重建方法,该方法包括以下步骤:
(1)构建训练图像样本数据集,具体方法为:
(1.1)对训练用高分辨率文本图像进行自适应阈值分割,生成与原图像相同尺寸的文本-非文本二值分割图像,其中对应文字的像素值设为1而对应非文字的像素值设为0;
(1.2)在包含RGB三个颜色通道的文本图像的基础上,将文本-非文本二值分割图像作为文本图像的一个额外通道,拼接生成附带分割信息的4通道文本图像;
(1.3)在步骤(1.2)生成的4通道文本图像的基础上,分别对其使用Bicubic进行1/2比例、1/4比例分辨率缩小,生成分辨率逐级以2倍率减少的一组4通道文本图像;
(1.4)将原始尺寸、1/2比例、1/4比例不同分辨率的4通道文本图像分别切割为相同数量、位置对应、大小分别为n×n、n/2×n/2、n/4×n/4像素的图像块,其中n是原始尺寸4通道文本图像切割成的图像块的边长;
(1.5)按照超分辨率重建的目标图像比率,选择切割自原始尺寸4通道文本图像和按对应分辨率比例缩小后4通道文本图像的对应相同位置的两个图像块作为高分辨率/低分辨率4通道文本图像样本对,以此构成超分辨率重建模型的训练样本数据集;
(2)训练基于条件生成对抗网络的文本图像超分辨率重建模型,具体方法是:
(2.1)构建生成器网络和判别器网络,并结合文本-非文本二值分割图像构造模型损失函数;所述模型损失函数的总损失函数为:
L=LcGAN(G,D)+λLcontent(G) (1)
其中,G代表生成器,D代表判别器,LcGAN(G,D)是约束生成器和判别器之间互相对抗的损失函数,Lcontent(G)是用于约束生成器G进行超分辨率重建后所得结果图像与训练高分辨率图像之间相似性的损失函数,λ为约束两个损失函数比例的超参数;
LcGAN(G,D)对抗损失计算如下:
其中,E表示数学期望,I代表4通道文本图像,LR,HR分别代表低分辨率和高分辨率,ILR和IHR分别代表低分辨率和高分辨率4通道文本图像,G(ILR)代表生成器G对低分辨率4通道文本图像ILR进行超分辨率重建后生成的4通道文本图像;
Lcontent(G)相似性损失计算如下:
其中,相似性损失Lcontent(G)进一步包括在4通道文本图像中RGB颜色通道对应的文本图像上的聚焦文本区域的L1相似性损失和在4通道文本图像中的文本-非文本二值分割图像上的L1相似性损失L1相似性损失指比较的两者在各个维度上的差的绝对值的平均值,λ(r)和λ(m)分别代表约束两部分损失相对比例的超参数;两部分损失计算如下:
其中,T代表4通道文本图像中的RGB颜色通道对应的文本图像,M代表4通道文本图像中的文本-非文本二值分割图像,W代表T和M的宽度,H代表T和M的高度,下标x,y表示T和M中某一像素的坐标,LR,HR分别代表低分辨率和高分辨率,代表高分辨率文本图像在像素(x,y)处的值,代表高分辨率文本-非文本二值分割图像在像素(x,y)处的值,G(TLR)代表生成器G对低分辨率文本图像TLR进行超分辨率重建后生成的文本图像,G(MLR)代表生成器G对低分辨率文本-非文本二值分割图像MLR进行超分辨率重建后生成的文本-非文本二值分割图像;
(2.2)将步骤(1)得到的训练样本数据集中的低分辨率4通道文本图像作为生成器网络的输入,对应的高分辨率4通道文本图像样本作为生成器网络的预期输出,使用反向传播算法训练生成器网络;
(2.3)将步骤(1)得到的训练样本数据集中的低分辨率4通道文本图像和对应的高分辨率4通道文本图像作为正例图像对,训练样本数据集中的低分辨率4通道文本图像和生成器网络相应输出4通道文本图像作为反例图像对,使用反向传播算法训练判别器网络;
(2.4)迭代步骤(2.2)和步骤(2.3),使得生成器在与判别器的对抗训练过程中最终学习得到高分辨率4通道文本图像的样本分布;
(3)将待重建的低分辨率文本图像及其对应的文本-非文本二值分割图像拼接成4通道文本图像,作为训练得到的文本图像超分辨率重建模型中生成器网络的输入,网络输出的4通道文本图像中的RGB颜色通道对应的文本图像即超分辨率重建后的高分辨率文本图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811320070.X/1.html,转载请声明来源钻瓜专利网。