[发明专利]一种任意形状的场景文本端到端识别方法有效

申请号：	201810294058.X	申请日：	2018-04-04
公开（公告）号：	CN108549893B	公开（公告）日：	2020-03-31
发明（设计）人：	白翔;吕鹏原;廖明辉;姚聪;储佳佳	申请（专利权）人：	华中科技大学
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/32;G06K9/62;G06N3/04
代理公司：	深圳市六加知识产权代理有限公司 44372	代理人：	严泉玉
地址：	430000 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种任意形状场景文本端到端识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种任意形状的场景文本端到端识别方法，通过特征金字塔网络提取文本特征，用于区域提取网络生成候选文本框；然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息；其次将包围盒位置信息输入分割分支，通过像素投票算法得到预测字符序列；最后通过加权编辑距离算法对预测的字符序列进行处理，找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本，包括水平文本、多方向文本和曲形文本，并且可以完全地进行端到端训练。本发明提出的检测识别方法相对于现有技术在准确度和通用性这些方面都取得了卓越的效果，有很强的实际应用价值。

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种任意形状的场景文本端到端识别方法。

背景技术

在计算机视觉领域中，场景文本检测和识别是一个非常活跃的、具有挑战性的研究方向，很多现实生活中的应用都和它息息相关，例如基于图片的地理定位、实时翻译和盲人帮助等。

场景文本检测和识别方法的目标为同时检测和识别来自自然场景的文本，即分为检测和识别两个任务。在过去的大多数研究中，文本检测和识别都是分开处理的，即第一步使用训练好的检测器检测自然场景图片中的文字区域，第二步则将第一步检测出的文字区域输入识别模块进行识别，获取文字内容。但由于这两个任务是高度相关和互补的，一方面，检测步骤的质量决定了识别的准确性；另一方面，识别的结果也可以为检测提供反馈。这样分开处理可能导致检测和识别无法达到最优性能。

最近，有两种方法提出了用于场景文本识别的端到端可训练框架。鉴于检测和识别之间的互补性，这些统一模型显著优于以前的方法。但是，这两种方法有两个主要缺点，首先，它们都不能完全以端对端的方式进行训练。其次，这些方法只能识别水平文本或定向文本，但实际场景图片中的文本的形状可能会存在显著变化，从水平或定向变为弯曲形式。因此需要设计一种可以处理任意形状的场景文本的端到端识别方法。

发明内容

本发明的目的在于提供一种任意形状的场景文本端到端识别方法，该识别方法由一个基于实例分割的文本检测器和一个基于字符分割的文本识别器组成。通过分割实例文本区域的方法实现检测任意形状的文本；通过二维空间中的语义分割来识别文本，实现识别不规则文本实例。该方法可以检测和识别任意形状的文本实例并可以完全地进行端到端训练。

为实现上述目的，本发明从一个全新的视角来解决场景文字检测识别问题，提供了一种任意形状的场景文本的端到端识别方法，包括下述步骤：

(1)训练任意形状的场景文本端到端识别网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注，标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列，得到带标注的标准训练数据集；

(1.2)定义任意形状的场景文本端到端识别网络模型，所述检测识别网络模型由特征金字塔结构网络，区域提取网络、快速区域分类回归分支网络，分割分支网络组成。根据(1.1)带标注的标准训练数据集，计算训练标签，并设计损失函数，利用反向传导方法训练该任意形状的场景文本端到端识别网络，得到任意形状的场景文本端到端识别网络模型；具体包括如下子步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810294058.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于卷积神经网络的车牌图像清晰化方法
下一篇：一种基于深度学习算法的船舶水尺图像自动读数方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种任意形状的场景文本端到端识别方法有效

专利文献下载