[发明专利]一种利用合成的联机文本图像改进手写OCR性能的方法有效
申请号: | 202011429519.3 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112364838B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 陈俊杰;杨淑爱;黄坤山;谢克庆 | 申请(专利权)人: | 佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司 |
主分类号: | G06V30/226 | 分类号: | G06V30/226;G06V10/764;G06T3/00;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州科沃园专利代理有限公司 44416 | 代理人: | 马盼 |
地址: | 528200 广东省佛山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 合成 联机 文本 图像 改进 手写 ocr 性能 方法 | ||
1.一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,包括以下步骤:
步骤S1,选取和划分数据集:采用IAM数据集,所述IAM数据集包括IAM手写数据集和IAM联机手写数据集;真实图像Igt经过数据处理后得到真实的手写图像Isty,,存储于IAM手写数据集中;
步骤S2,构建风格GAN网络的生成器,所述生成器包括内容编码器、内容解码器和风格编码器三个部分;所述内容编码器,借鉴了VGG-19的网络结构,由多个用于对输入下采样的池化层和卷积层来组成;所述内容编码器分别包括五个卷积层模块和三个全连接层;
步骤S3,训练GAN网络的生成器:对真实的手写图像Isty进行骨架化操作,得到骨架图Iske,然后将骨架图Iske输入到所述内容编码器进行内容特征提取,生成特征图,输出给内容解码器;将真实的手写图像Isty输入到风格编码器提取其中的风格特征,输出经过全局池化得到的512维的风格向量s;所述内容解码器,接收来自所述内容编码器的特征图,并接收来自所述风格编码器经过所述风格向量s仿射变换后得到的分量,通过采取AdaIN的操作,在特征图层面上改变其分布,融入风格信息,输出合成图Isyn;
步骤S4,通过训练出来的生成器对联机数据集中文本图像进行合成:将所述IAM联机手写数据转为骨架图,并从所述IAM手写数据集中选取测试集作为风格图,一起输入生成器,生成脱机手写图像。
2.如权利要求1所述的一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,所述步骤S3中,所述骨架图Iske与所述真实的手写图像Isty形成成对的训练数据Iske-Isty样本对,再从所述IAM手写数据集中抽取验证集和测试集,对生成器网络模型的合成图片的效果进行检测,用以训练生成器。
3.如权利要求1所述的一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,所述步骤S3中,所述AdaIN是在特征图层面上改变数据分布,可以通过控制改变AdaIN层中的仿射参数来实现风格迁移的效果;AdaIN层是在网络内部改变特征图的分布,把风格迁移的任务交给AdaIN,在网络结构上实现其他的任务,其中AdaIN操作为:
其中X表示的内容图片编码后的特征图,是由风格向量s经仿射变换得到的,对于内容解码器的不同层,仿射变换的参数也不一样;σ和μ表示的是均值和标准差。
4.如权利要求1所述的一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,所述步骤S2中,所述内容解码器,其结构类似于U-Net中的解码器部分,结构与内容编码器的结构对称,利用多层卷积和双线性上采样层,生成相同于输入尺寸的合成手写文本图片;所述内容解码器包括五个卷积层模块。
5.如权利要求1所述的一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,所述步骤S3中,对于高为H、宽为W的
骨架图Iske,内容编码器将其转化为的特征图,风格编码器的输入是来自真实的手写图像Isty,输出为经全局池化得到的512维的风格向量s;内容编码器利用多层3×3卷积和双线性上采样层,生成高为H、宽为W的图像Isyn,其中,所述风格编码器输出的风格向量s通过AdaIN的方式,对内容解码器中间层的特征图进行调整,以将其风格融入到内容解码器的最终输出Isyn。
6.如权利要求1所述的一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,所述步骤S3中,通过采取三个损失函数,包括内容损失函数、感知损失函数和对抗损失函数,以训练生成器生成的合成图片尽可能的逼真以及具有真实图片相应的风格;
所述内容损失函数接受来自于合成文本图和真实图像之间的内容特征像素级的差异,以优化出最好的参数,记生成器生成的合成图为Isyn,真实图像为Igt:
Lcontent=||Igt-Isyn||1
所述感知损失函数解决的是内容损失函数导致生成图像过度光滑的问题,利用ImageNet上预训练好的VGG-19网络,在五个卷积模块的第一个卷积层后的relu激活函数后的特征空间:
φi(·),i={1,2,3,4,5},
计算合成图Isyn和真实图Igt的特征差,具体如下:
MSE表示均方误差函数,α取值分别为1/32,1/16,1/18,1/4和1;所述对抗损失函数采用了patchGAN的做法,将原GAN网络的判别器网络换成了全卷积网络,patchGAN的判别器网络对输入图像感受域的一小块区域进行判别输出,使模型更能关注图像细节,逐次叠加的卷积层最终输出N*N的矩阵,其中的每一个元素,实际上代表着原图中的一个比较大的感受域,对应着原图中的patch,具体如下:
D表示判别器网络,用来判断两者之间对比而言是否真实的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司,未经佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011429519.3/1.html,转载请声明来源钻瓜专利网。