[发明专利]一种基于上下边界提取的自然场景下文字检测方法在审

专利信息
申请号: 202110265373.1 申请日: 2021-03-11
公开(公告)号: CN112861860A 公开(公告)日: 2021-05-28
发明(设计)人: 路通;钟虎门;杨志博;王永攀 申请(专利权)人: 南京大学
主分类号: G06K9/32 分类号: G06K9/32;G06K9/34;G06K9/46;G06N3/04;G06N3/08;G06T7/11
代理公司: 北京德崇智捷知识产权代理有限公司 11467 代理人: 王雪
地址: 210000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 上下 边界 提取 自然 场景 文字 检测 方法
【说明书】:

发明公开了一种基于上下边界提取的自然场景下文字检测方法,涉及计算机视觉文字检测和图像分割领域。具体包括:步骤1,通过卷积神经网络模型提取图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强;步骤2,通过语义分割模型预测文字的中心区域,上边界区域,下边界区域和文字的整体区域;步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线;步骤4,组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。优点在于能够提取图像中文字的上下边界并定位文字区域,能够进行自然场景下的图像文字检测。

技术领域

本发明涉及计算机视觉文字检测和图像分割领域,具体涉及一种基于上下边界提取的自然场景下文字检测方法。

背景技术

自然场景中的文字检测任务是计算机视觉领域中一项极为受到关注的研究项目,其具体任务可以理解为从一张自然场景拍摄的图像中提取其内部包含的所有文字的位置及其边界框。自然场景文字检测任务在学术领域和工业领域都有十分重要的应用,例如在学术界中,高效、准确的文字检测是后续文字识别、文本图像内容理解等任务至关重要的基石;同时对于工业界,文字检测在自动驾驶中的路牌识别、自然场景下的文字翻译等任务中也具有非常重要的地位。因此,建立一种高效准确且能有效表示文字边界线的模型和方法,在计算机视觉领域具有重要意义。

自然场景中的文字检测具有相当程度的复杂性,其难度体现在多个方面,例如文字本身的多样性:不同文字可能具有不同的文本内容、不同的语种、多样的字体和风格等,因此需要一个具有高度泛化能力的模型对文字进行建模;又例如文字区域排布的任意性,即自然场景图像中,文字可能是以任意的方式如水平排布、倾斜排布、翻转排布甚至弯曲排布等方式排列在图像中,这给文字的准确检测带来了极大的困难;再例如文字区域与一些复杂背景混合时,背景噪声本身的纹理形状可能与文字非常相似,如何将复杂背景中的噪声与前景文字区分开来同样是一个极有挑战的问题。

传统的自然场景文字检测模型将通用目标检测模型直接应用于文字检测领域,例如使用SSD,Faster-RCNN等模型直接检测自然场景中的文字实例同时预测每个文字实例位置的矩形框,但是这些方法只考虑了正常形状的文字实例,而倾斜排布甚至弯曲排布的文字很难通过一个平行于横纵轴的矩形框进行准确的表示。同时,也有一部分方法采用纯分割模型以文字区域为目标训练分割模型,则预测的文字区域通过findContour函数就可以找到对应文字实例的轮廓线,但是这样的方法也有其一定的局限性,例如使用findContour函数找到的文字实例轮廓线没有上下边界之分,因此很难用于形式化的表示一个文字实例同时准确的提取文字区域的内容以便于后续可能的下游任务。

随着深度学习以及目标检测和语义分割等领域的快速发展,我们尝试使用深度神经网络通过语义分割方法预测文字实例的区域,同时辅以使用分割模型预测文字实例的上下边界区域病进一步提取其上下边界线。通过这样的设计,该方法能在保留过往基于语义分割的模型能够处理弯曲文字的优势的同时,也通过对文字上下边界的预测获得了提取文字上下边界线的能力,这使得该模型能预测自然场景下任意排布的文字区域并为之生成形式化的上下边界线。

发明内容

本发明所要解决的技术问题是对自然场景下的任意排布、任意形状的文字进行上下边界线提取并进而对自然场景下的任意排布、任意形状文字进行检测。

为解决上述技术问题,本发明采用的技术方案是:

一种基于上下边界提取的自然场景下文字检测方法,包括如下步骤:

步骤1,通过卷积神经网络模型提取输入图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强;

步骤2,通过语义分割模型预测文字的整体区域、中心区域、上边界区域以及下边界区域;

步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110265373.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top