[发明专利]一种基于弱监督学习的字符级场景文字检测方法和装置有效
申请号: | 202010260170.9 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111488873B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 张正夫;乔宇;付彬;李明 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/14;G06V30/19 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 字符 场景 文字 检测 方法 装置 | ||
本发明公开了一种基于弱监督学习的字符级场景文字检测方法与装置。该方法包括:对于自然场景下的文字图像和裁剪后的文字区域图像,使用第一模型对裁剪后的文字区域图像进行强监督训练和弱监督训练,使用第二模型对自然场景下的文字图像进行强监督训练和弱监督训练,其中在弱监督训练过程中,第一模型在单词级或者文本行级的文字图像中预测字符框,以生成自然场景下的文字图像对应的假的字符热图和连接热图,提供给第二模型作为训练的监督。利用本发明能够更准确地进行文字检测。
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种基于弱监督学习的字符级场景文字检测方法和装置。
背景技术
场景文字检测是计算机视觉领域的一个热门研究方向,旨在从自然场景图像中检测出文字区域的位置,如图1所示。该技术是场景文字识别、图像内容理解等任务的基础。场景文字检测的发展经历了两个主要阶段,即基于手工设计特征的阶段和基于深度学习的阶段。
具体地,在基于手工设计特征的阶段,通过对图像提取手工设计特征,进行自底向上的文字检测。该阶段的方法可以大致分为两类:基于连通组件的方法和基于滑动窗口的方法。基于连通组件的方法首先使用快速的方法(例如最大稳定极值区域、笔画宽度变换等)区分文字和非文字像素,然后根据人工设计的规则将文字区域连接起来。基于滑动窗口的方法使用多个不同尺度和长宽比的预定义滑动窗口,在每个滑动过的每个位置上,使用检测算法区分文字与非文字区域。
在基于深度学习的阶段,随着深度学习技术的快速发展,为各种计算机视觉任务注入了新的活力。基于深度学习的场景文字检测方法可以大致分为两类:基于回归的方法和基于分割的方法。基于回归的方法从目标检测算法中获取灵感,直接回归文字区域的坐标。由于文字区域的长度以及长宽比变化较大,现有一些方法通过仔细选择适当的表示形式来回归文字区域坐标。基于分割的方法受到语义或实例分割算法启发,预测文字区域的像素级表示,并使用后处理方法得到文字区域。文字区域的像素级表示有多种形式,例如,预测文字角点位置的热图,预测文字/非文字的模版,预测字符热图和连接热图等。
近年来,深度学习经历了快速的发展,各种计算机视觉任务都取得了长足进步。深度学习算法性能的提升,很大程度上依赖于大量的标注数据。然而,在很多任务中,人工标注的成本十分高昂,强监督信息的获取比较困难。因此,弱监督学习的研究逐渐受到重视。弱监督大致可分为不完全监督、不确切监督和不准确监督。不完全监督是指部分训练数据有完整的标注,其余大量训练数据未标注。不确切监督是指训练数据只有不完整的标签。不准确监督是指训练数据的标注存在错误。
在现有技术中,CRAFT(字符级文本检测)是一种基于分割的字符级场景文字检测算法,其定义了字符热图和连接热图,如图2所示。字符热图的生成方式是:生成一个满足各向同性的正方形二维高斯热图;根据字符框,通过透视变换,将上述高斯热图投影到字符区域上。连接区域热图的生成方式是:通过画出字符框的对角线,可以在每个字符框内生成上下两个三角形;对于每一对相邻的字符框,它们的连接框可以定义为以各自内部的上三角形和下三角型的中心作为顶点的四边形;生成一个满足各向同性的正方形二维高斯热图;根据连接框,通过透视变换,将上述高斯热图投影到字符区域上。通过预测上述的字符热图和连接区域热图,并结合相应的后处理连接算法,就可以检测出以单词或者文本行为单位的文字区域的位置,如图3所示。
目前,绝大多数自然场景文字检测数据集中,标注粒度一般为单词或文本行级别。而人工合成的文字检测数据集SynthText,包含了大量(80万张以上)的字符级标注数据。因此,训练过程中需要将强监督学习和弱监督学习结合起来。CRAFT就是采用了这样的训练思路,如图4所示。首先,使用SynthText数据集的字符级标注对模型进行强监督训练;然后,使用真实自然场景文字检测数据集进行弱监督训练。
弱监督训练的关键环节是利用现有的粗粒度标注,如单词级或者文本行级的文字区域标注,生成假的字符级标注。以原始图像中的一个单词级或者文本行级样本w为例,生成假的字符级标注过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010260170.9/2.html,转载请声明来源钻瓜专利网。