[发明专利]一种利用合成的联机文本图像改进手写OCR性能的方法有效
申请号: | 202011429519.3 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112364838B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 陈俊杰;杨淑爱;黄坤山;谢克庆 | 申请(专利权)人: | 佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司 |
主分类号: | G06V30/226 | 分类号: | G06V30/226;G06V10/764;G06T3/00;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州科沃园专利代理有限公司 44416 | 代理人: | 马盼 |
地址: | 528200 广东省佛山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 合成 联机 文本 图像 改进 手写 ocr 性能 方法 | ||
本发明提供了一种利用合成的联机文本图像改进手写OCR性能的方法,包括以下步骤:步骤S1,选取和划分数据集,采用IAM数据集,所述中IAM数据集含有IAM手写数据集和IAM联机手写数据集;步骤S2,构建风格GAN网络的生成器,所述生成器包括三个部分,内容编码器、内容解码器和风格编码器;步骤S3,训练网络中的的生成器;步骤S4,通过训练出来的生成器网络模型对联机数据集中文本图像进行合成。采用本发明框架生成的手写图像能够有效提升OCR识别精度,对于采集和构造大规模手写数据集提供了一个可行的替代方案。
技术领域
本发明涉及图像处理技术领域,具体地涉及一种利用合成的联机文本图像改进手写OCR性能的方法。
背景技术
生成对抗网络(GAN)已经成为深度学习领域一个热门的研究方向。GAN网络实际上包含了2个网络,一个是生成器网络(Generator),另一个是判别器网络(Discriminator)。这两个网络可以是神经网络,从卷积神经网络,递归神经网络到自动编码器。在这种配置中,两个网络参与竞争游戏并试图相互超越,同时帮助他们完成自己的任务。经过数千次迭代后,如果一切顺利,生成器网络,即生成器,可以完美生成逼真的虚假图像,并且鉴别器网络,即判别器,可以很好地判断的图像是真实的还是虚假的。GAN的核心目的其实还是在于它的生成器,而至于为什么存在判别器,主要是为了引入对抗训练,通过对抗训练的方式让生成器网络能够生成高质量的图片。生成器在训练过程中的目的是生成尽可能逼真的图片去让判别器判断不了这张图片到底是真实图片还是生成的虚假照片,判别器在训练过程中的目的就是尽可能取辨别真假图片,所以生成器是希望是判别器的犯错率最大化,而判别器则是希望自己犯错率最小化,二者互为对抗,在竞争中共同进步。
在手写OCR领域,针对基于深度学习的手写OCR引擎,理想的训练集应该能够覆盖各类书写风格、背景与光影变化、所有可能出现的词汇等。然而,采集这样的一个训练集十分费时费力,在一些情况下严重制约着手写OCR识别精度。手写图像合成的重要性由此显现。得益于近年来对抗式生成网络的发展,不少学者提出了从文本或印刷体文本行生成手写风格文本行的方法。但是,此类方法生成的手写风格仍然不够丰富,缺乏手写文字的风格。另一个手写文本行生成的思路是将联机手写数据转为脱机图像。联机数据可以方便地由手机、书写板等设备采集得到,数据量大、风格多变,若能将其转为逼真的脱机手写图像,则能够很好的辅助手写OCR的训练。
发明内容
本发明的目的是提供一种利用合成的联机文本图像改进手写性能的方法,以保证手写OCR识别精度,转为逼真的脱机手写图像,用于辅助OCR训练。
为达到上述目的,本发明提供了一种利用合成的联机文本图像改进手写OCR性能的方法,其特征在于,包括以下步骤:
步骤S1,选取和划分数据集:采用IAM数据集,所述IAM数据集包括IAM手写数据集和IAM联机手写数据集;所述真实图像Igt经过数据处理后得到真实的手写图像Isty,,存储于IAM手写数据集中;步骤S2,构建风格GAN网络的生成器,所述生成器包括内容编码器、内容解码器和风格编码器三个部分;
步骤S3,训练GAN网络的生成器:对真实的手写图像Isty进行骨架化操作,得到骨架图Iske,然后将骨架图Iske输入到所述内容编码器进行内容特征提取,生成特征图,输出给内容解码器;将真实的手写图像Isty输入到风格编码器提取其中的风格特征,输出经过全局池化得到的512维的风格向量s;所述内容解码器,接收来自所述内容编码器的特征图,并接收来自所述风格编码器经过所述风格向量s仿射变换后得到的分量,通过采取AdaIN的操作,在特征图层面上改变其分布,融入风格信息,输出合成图 Isyn;
步骤S4,通过训练出来的生成器对联机数据集中文本图像进行合成:将所述IAM联机手写数据转为骨架图,并从所述IAM手写数据集中选取测试集作为风格图,一起输入生成器,生成脱机手写图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司,未经佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011429519.3/2.html,转载请声明来源钻瓜专利网。