[发明专利]一种基于CNN的扫描文档图像增强方法在审
申请号: | 202110163992.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN112819724A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 尹旷;王红斌;方健 | 申请(专利权)人: | 广东电网有限责任公司广州供电局 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 510620 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cnn 扫描 文档 图像 增强 方法 | ||
1.一种基于CNN的扫描文档图像增强方法,其特征在于,包括如下步骤:
步骤1,对ground truth进行颜色空间转换和归一化处理,然后结合退化模型获取退化图像;
步骤2,构建深度学习模型;
所述深度学习模型由特征提取模块、特征非线性映射模块和图像重建模块构成,其中,特征提取模块由多个卷积层构成,卷积核均为3×3,特征非线性映射模块由一个1×1卷积层构成,图像重建模块由两个3×3卷积层构成;
步骤3,对退化图像与ground truth进行子图像划分处理,形成训练图像对;
步骤4,利用训练图像对训练深度学习模型;
步骤5,将待处理图像输入到训练好的深度学习模型中,得到增强后的扫描文本图像。
2.如权利要求1所述的一种基于CNN的扫描文档图像增强方法,其特征在于:步骤1中对ground truth进行颜色空间转换和归一化处理的具体实现方式如下;
首先,对ground truth进行颜色空间转换,将图像从RGB颜色空间转换为YCbCr颜色空间,并且仅保留Y通道的亮度信息,转换过程如下式所示:
Y=0.257×xR+0.564×xG+0.098×xB+16 (1)
其中,xR、xG、xB分别表示输入图像对应位置像素的红、绿、蓝三通道像素值,Y为输出像素值;
将转换后的灰度图像进行归一化处理,如下式所示:
其中,Y为输入像素值,x为归一化像素输出值。
3.如权利要求1所述的一种基于CNN的扫描文档图像增强方法,其特征在于:步骤1中结合退化模型获取退化图像的具体实现方式如下;
通过组合随机加权的方法随机生成退化模型,利用颜色转换并归一化后的groundtruth和随机退化生成模型,获得用于模型训练的退化图像,退化图像生成过程如下式所示:
Z(x)=αB(x)+βGθ(x)+γx (3)
其中,Z(x)为组合随机退化方法生成的退化样本;B(x)为bicubic方法退化图像;Gθ(x)为使用核大小为θ的高斯模糊处理获得的字迹模糊退化图像;x为ground truth,α、β、γ为加权系数,且满足α+β+γ=1。
4.如权利要求3所述的一种基于CNN的扫描文档图像增强方法,其特征在于:θ∈{3,5,7}。
5.如权利要求1所述的一种基于CNN的扫描文档图像增强方法,其特征在于:采用以下方式对退化图像与ground truth进行子图像选取,退化图像以33×33大小14步长的部分重叠的方式选取子图像,在ground truth上对应位置上取居中的21×21像素选取子图像,形成训练图像对。
6.如权利要求1所述的一种基于CNN的扫描文档图像增强方法,其特征在于:采用梯度下降方式进行训练,mini-batch大小设置为128,学习率初始化为5×10-4,并在每1×105个mini-batch训练后减少1×10-4,直至最小学习率为1×10-4时停止训练,并保存网络参数,模型参数的初始化采用He方法,优化器使用Stochastic Gradient Descent,损失函数为L2距离损失。
7.如权利要求1所述的一种基于CNN的扫描文档图像增强方法,其特征在于:所述深度学习模型中特征提取模块由4个卷积层构成,即深度学习模型包括7个卷积层,其中1、2层卷积核个数为128,3、4层卷积核个数为64,第5层卷积核个数为32,第6、7层卷积核个数为1,7个卷积层的步长均为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司广州供电局,未经广东电网有限责任公司广州供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110163992.X/1.html,转载请声明来源钻瓜专利网。