[发明专利]一种基于自注意力蒸馏的弱监督文字检测方法在审
申请号: | 202011320840.8 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112418207A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 杨鹏;杨国为;韩志耕;吴平平;龚勋 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 南京华恒专利代理事务所(普通合伙) 32335 | 代理人: | 宋方园 |
地址: | 211000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 蒸馏 监督 文字 检测 方法 | ||
本发明公开一种基于自注意力蒸馏的弱监督文字检测方法,获取图片样本,并将图片样本中的含文字图片和不含文字图片分别标记为正负样本;对于获取后的正负样本采用VGGNet网络作为主干网络训练一个弱监督文字分类网络;通过训练好的文字分类网络对待检测图片的输出信息进行筛选,筛选出包含有文字的文字候选区,然后根据文字候选区生成伪标注来训练文字检测网络,并通过自注意力蒸馏法提高文字检测网络的精度。
技术领域
本发明涉及计算机文字识别技术,具体涉及一种基于自注意力蒸馏的弱监督文字检测方法。
背景技术
场景文字识别(Scene Text Recognition,STR)的应用非常广泛,包括图片文字实时翻译、自动表格数据读取、盲人辅助导航、自助旅游翻译、地理位置信息服务、智能交通系统、无人驾驶汽车、工业自动化等。完整的STR流程通常包括文字检测与文字识别两个步骤,文字检测的任务是找出图片中文字区域并标记相应边界框。从某种意义上说,文字检测比文字识别更重要,如果对文字定位有偏差,就无法从场景图片中正确识别文本。
目前,基于深度学习的方法正成为场景文字检测的主流,而大量精确标注的样本是此类方法取得成功的关键。由于对大规模真实文字场景数据集进行标注是一项极其费时费力的工作,绝大多数检测方法使用人工合成数据集进行模型预训练。然而,该数据集主要将大量的单词实例经过简单变换后嵌入到自然场景图片中,不足以代表自然场景中纷繁多变的文字,训练出来的模型泛化性能有待提高。
也有研究人员提出使用弱监督学习进行文字检测,利用现有标准数据集中大量的单词级标签来生成字符级伪标签,然后训练字符分割模型以及字符间区域分割模型,最后得到文字区域。然而,这类方法需要复杂的后处理过程,并存在文字漏检的情况。
目前弱监督学习在通用目标检测应用中应用较多,只需使用图像级标注样本而无需包含物体的矩形框标签便可训练检测器来定位图像中的目标。然而与一般的物体相比,文字具有许多独有特点,比如呈现出较大宽高比、无明显闭合边缘轮廓、字符之间有间隔等,基于弱监督学习的通用检测网络并不能直接用于定位文字。
因此综上所述,如何在较小的标注成本情况下进行有效的文字检测是当前亟需解决的技术难题。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于自注意力蒸馏的弱监督文字检测方法,本发明在只给定有无文字(含文字计数,相当于图像级监督信息)的图片样本情况下,利用弱监督学习训练文字检测器,同时利用自注意力蒸馏SAD来提高弱监督条件下文字检测的精确度。
技术方案:本发明的一种基于自注意力蒸馏的弱监督文字检测方法,包括图片分类和图片检测,具体如下:
获取图片样本,并将图片样本中的含文字图片和不含文字图片分别标记为正负样本;对于获取后的正负样本采用VGGNet网络作为主干网络训练为基于弱监督的文字分类网络;
通过训练好的文字分类网络对待检测图片的输出信息进行筛选,筛选出包含有文字的文字候选区,然后根据文字候选区生成伪标注来训练文字检测网络,并通过自注意力蒸馏法SAD提高文字检测网络检测文字精度,减少背景噪声。
本发明使用基于激活函数的注意力特征图,即把长、宽、通道三维特征转换为长、宽两维特征,通过考虑各通道上激活后的特征值,来确定空间上特征的分布状况。其中通过注意力生成模块AGM先把网络中的指定特征输入AGM得到注意力热图,再上采样到目标大小,最后通过softmax处理。整个过程中,自注意力蒸馏法SAD只在训练阶段使用,不会给具体检测过程带来计算成本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011320840.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种目标功能的更新方法和装置
- 下一篇:一种公共场所休闲按摩装置