[发明专利]一种任意形状的场景文本端到端识别方法有效
申请号: | 201810294058.X | 申请日: | 2018-04-04 |
公开(公告)号: | CN108549893B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 白翔;吕鹏原;廖明辉;姚聪;储佳佳 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/32;G06K9/62;G06N3/04 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 严泉玉 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任意 形状 场景 文本 端到端 识别 方法 | ||
本发明公开了一种任意形状的场景文本端到端识别方法,通过特征金字塔网络提取文本特征,用于区域提取网络生成候选文本框;然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息;其次将包围盒位置信息输入分割分支,通过像素投票算法得到预测字符序列;最后通过加权编辑距离算法对预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本,包括水平文本、多方向文本和曲形文本,并且可以完全地进行端到端训练。本发明提出的检测识别方法相对于现有技术在准确度和通用性这些方面都取得了卓越的效果,有很强的实际应用价值。
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种任意形状的场景文本端到端识别方法。
背景技术
在计算机视觉领域中,场景文本检测和识别是一个非常活跃的、具有挑战性的研究方向,很多现实生活中的应用都和它息息相关,例如基于图片的地理定位、实时翻译和盲人帮助等。
场景文本检测和识别方法的目标为同时检测和识别来自自然场景的文本,即分为检测和识别两个任务。在过去的大多数研究中,文本检测和识别都是分开处理的,即第一步使用训练好的检测器检测自然场景图片中的文字区域,第二步则将第一步检测出的文字区域输入识别模块进行识别,获取文字内容。但由于这两个任务是高度相关和互补的,一方面,检测步骤的质量决定了识别的准确性;另一方面,识别的结果也可以为检测提供反馈。这样分开处理可能导致检测和识别无法达到最优性能。
最近,有两种方法提出了用于场景文本识别的端到端可训练框架。鉴于检测和识别之间的互补性,这些统一模型显著优于以前的方法。但是,这两种方法有两个主要缺点,首先,它们都不能完全以端对端的方式进行训练。其次,这些方法只能识别水平文本或定向文本,但实际场景图片中的文本的形状可能会存在显著变化,从水平或定向变为弯曲形式。因此需要设计一种可以处理任意形状的场景文本的端到端识别方法。
发明内容
本发明的目的在于提供一种任意形状的场景文本端到端识别方法,该识别方法由一个基于实例分割的文本检测器和一个基于字符分割的文本识别器组成。通过分割实例文本区域的方法实现检测任意形状的文本;通过二维空间中的语义分割来识别文本,实现识别不规则文本实例。该方法可以检测和识别任意形状的文本实例并可以完全地进行端到端训练。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测识别问题,提供了一种任意形状的场景文本的端到端识别方法,包括下述步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,所述检测识别网络模型由特征金字塔结构网络,区域提取网络、快速区域分类回归分支网络,分割分支网络组成。根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该任意形状的场景文本端到端识别网络,得到任意形状的场景文本端到端识别网络模型;具体包括如下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810294058.X/2.html,转载请声明来源钻瓜专利网。