[发明专利]基于图像字符区域感知的端到端文本检测及识别方法在审
申请号: | 202011431114.3 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112541491A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 杜权;刘兴宇;徐萍 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图像 字符 区域 感知 端到端 文本 检测 识别 方法 | ||
本发明公开一种基于图像字符区域感知的端到端文本检测识别方法,步骤为:数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;将两种数据集中图像部分进行分割,找到图像中文本的位置;利用图像中文本的位置,得到每一个字符位置对应的特征;根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈。本发明可以检测任意形状的文本,识别多方向的文字,实现识别反馈的端到端文本检测和识别。
技术领域
本发明涉及一种计算机视觉技术领域,具体为一种基于图像字符区域感知的端到端文本检测及识别方法。
背景技术
OCR是计算机视觉领域的经典问题,长久以来,一直受到学术界和工业界的持续关注。在工业界,Google、Microsoft、Amazon等大型互联网公司以及云从科技等人工智能创业公司,都在OCR技术上耕耘多年。
OCR(Optical Character Recognition,光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景。而自然场景中的OCR技术不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。
但相较于传统OCR,自然场景OCR中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。
自然图像文本识别一直被认为是两个连续但独立的问题:文字检测和文字识别。由于深度神经网络的成功,这两个人物都取得了很大的进展。文字识别的目标是从被抠出来的文本图片中识别出一连串字符。一般来说,文字识别被转换为一个序列标记问题通常由卷积神经网络特征的递归神经网络来解决。然而,通过这样两阶段的方法实现文本识别通常由很多限制。首先独立的学习这两个任务是一个次优的问题,因为这样很难完全利用文本本身的性质。比如说,联合的文字检测和识别可以提供丰富的上下文信息并且两个任务可以实现互补。其次两阶段的方法通常需要多个连续的步骤,这样使整个系统更复杂,并且使得识别结果很大程度上依赖于检测性能的好坏。
最近已经有一些方法尝试去开发一个统一的文字检测与识别框架(也叫端到端识别),但它们的模型非常的复杂,在文字检测阶段很难精确的识别出精确文本区域。通常会有很多的背景包含在扣除来的特征中。这样不可避免的限制了文字识别的性能,尤其对于多方向或者弯曲的文本。
发明内容
针对现有技术中自然图像文本识别在文字检测阶段很难精确的识别出精确文本区域等不足,本发明要解决的问题是提供一种可提升检测和识别的准确度的基于图像字符区域感知的端到端文本检测及识别方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于图像字符区域感知的端到端文本检测识别方法,包括以下步骤:
1)数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;
2)在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;
3)将两种数据集中图像部分进行分割,找到图像中文本的位置;
4)利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征;
5)根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率n表示每一个Text Box里面包含的字符的个数;
6)完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011431114.3/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序