[发明专利]一种基于图像增强的自然场景文本识别方法有效
申请号: | 202010240272.4 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111428718B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 钱烨;王雨阳;苏丰 | 申请(专利权)人: | 南京大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/46;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/084 |
代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 王斌 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 增强 自然 场景 文本 识别 方法 | ||
本发明公开一种基于图像增强的自然场景文本识别方法,包括以下步骤:(1)构建包含增强网络和识别网络的自然场景文本识别模型;(2)训练基于图像增强的自然场景文本识别模型;(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。本发明通过在文本识别模型中的识别网络模块前引入专门的图像增强模块,并端到端地对整个识别模型进行训练,使得所引入图像增强模块能够自适应地对输入图像进行调整和增强,例如抑制复杂背景、突出文本区域等,从而改善图像的质量,有效提高后继文本识别网络模块的准确率。
技术领域
本发明属于计算机视觉领域,涉及自然场景文本识别方法。
背景技术
自然场景图像中出现的文本对象为场景理解、图像分析、分类和标注等应用提供了重要的可供利用的信息。然而,自然场景的复杂性、文字外观的多样性以及图像中经常存在退化、干扰等诸多因素,使得对自然场景图像中文字的识别具有较高的难度。
近年来出现的场景文本识别方法大致分为字符级和单词级两类。字符级方法通常采用一个自底向上的识别流程,即首先使用支持向量机、神经网络等分类器在滑动窗口中定位并识别每个字符,再将候选字符聚合成词。单词级方法通常采用自上而下的方式,利用语言、词法等知识在词级别进行整体识别,例如采用循环神经网络等序列化识别模型,在使用卷积神经网络获得的图像特征表示的基础上,直接识别出整个字符序列。此类方法避免了字符级方法易受前导字符检测与识别步骤中错误影响的不足,并且一般采用端到端的识别模型训练学习方式,取得了往往优于字符级方法的识别性能。
上述方法虽然在自然场景图像文字的识别上取得了相当大的进展,但大多针对识别条件较好的图像中的文字对象特点来设计相应方法,而并未针对图像自身设计专门的处理方法来改善其识别条件,因此往往难以进一步提高识别的性能。
发明内容
本发明的目的是提供一种基于图像增强的自然场景文本识别方法,该方法不同于聚焦于文本对象特点的现有场景文本识别方法,而是从改善自然场景图像中经常存在的低对比度、不均匀光照、嘈杂背景等不利条件出发,通过有效的神经网络模型和算法对图像进行增强,使其更易于文字识别,从而达到提高方法识别性能的目标。该方法在一般基于循环神经网络的编解码识别网络的前面,设计引入了有效的采用端到端学习的图像增强神经网络模块,来对原输入图像进行自适应的增强,可有效提高整体识别模型对自然场景文字的识别能力。
本发明具体采用如下技术方案:
一种基于图像增强的自然场景文本识别方法,包括以下步骤:
(1)构建包含增强网络和识别网络的自然场景文本识别模型,包括以下子步骤:
(1.1)构建增强网络;
(1.2)构建识别网络;
(1.3)设计识别模型的损失函数;
(2)训练基于图像增强的自然场景文本识别模型,包括以下子步骤:
(2.1)将一训练文本图像作为增强网络的输入,将其输出的增强后的图像输入到识别网络中,获得预测的文字标签序列,另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列,使用反向传播(back propagation,BP)算法端到端地训练整个识别模型;
(2.2)重复步骤(2.1),使得包括增强网络和识别网络在内的整个识别模型在训练过程中逐步学习到文本标签的样本分布;
(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。
本发明公开的一种基于图像增强的自然场景文本识别方法具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010240272.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于化工车间空气净化设备
- 下一篇:一种锂离子电池电极材料的制备和应用
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序