[发明专利]一种基于关联性层级残差的多实例自然场景文本检测方法有效
申请号: | 202010464099.6 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111723798B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 田智强;王春晖;杜少毅;兰旭光 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/22;G06V10/80;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联性 层级 实例 自然 场景 文本 检测 方法 | ||
本发明提出了一种基于关联性层级残差的多实例自然场景文本检测方法,本发明采用的特征提取网络利用关联性层级残差以及反向逐级特征融合提取了粗粒度与细粒度相结合的多尺度特征,其中包含了更精确更完备的文本信息,以提高文本检测精度;其次,本发明使用的文本检测框回归损失由CIoU Loss和角度损失两部分构成,尤其是CIoU Loss的使用考虑了预测文本检测框与真实文本检测框之间的重叠面积、中心距离、长宽比等因素,能够更加精准的评估文本检测框的实际回归情况,从而可以提高文本检测方法的性能;然后,本发明在多个步骤中采用适当的方式减轻了硬件计算压力,最后,本发明对于常规文本区域,小文本区域的检测效果都很好。
技术领域
本发明属于深度学习、计算机视觉和文本检测领域,具体涉及一种基于关联性层级残差的多实例自然场景文本检测方法。
背景技术
文字作为信息传递的一种主要方式,它在我们的日常生活中扮演着不可或缺的角色,而随着大数据时代的到来,如何获取海量图像中的文本信息成为了一个亟需解决的问题。由此,再基于深度学习的发展,自然场景文本检测技术成为了计算机视觉领域一个非常热门的研究方向,其对于图像检索和场景理解等具有重要意义。
目前,大量研究成果的问世使得自然场景文本检测广泛应用于各行业各领域。比如:许多互联网公司基于自然场景文本检测技术开发了图像检索、街景导航等相关业务和应用。而一些云服务商也相继提供了图像文本检测服务,其中各项服务面向教育、物流、视频、电商、旅游等多个领域,为用户提供直接的文本检测服务、间接的文本检测模型、或定制化AI服务系统集成等。虽然到现在为止自然场景文本检测技术成果显著,但是由于自然场景文本检测处理的文本图像具有背景复杂以及文本多样的特点,目前相关技术仍然存在检测精度不够等技术难题。
经过调查与研究,我们发现现有自然场景文本检测方法存在以下两点不足:一方面,文本检测使用的特征提取网络虽然借鉴SPPNet、U-Net、FPNNet等多尺度特征提取网络开始采用多尺度特征提取及融合的思想,但是这种方式在相邻不同尺度特征的提取过程中一般只采用一种尺寸的卷积核,因此这样的特征提取是粗粒度的。考虑到自然场景文本图像中的文本实例通常比自然背景要小得多,而且现有方法对于小文本区域的检测效果不好的问题,需要提取更加细粒度的特征才能与文本检测任务适配,所以这种粗粒度的多尺度特征提取方式仍然存在改进和提升空间。另一方面,文本检测方法中目前常用的回归损失函数为IoU Loss,它计算的是预测文本检测框与真值文本检测框之间的交并比,但是在交并比相同的情况下预测框和真值框的位置情况、交叠情况都可能有所不同,所以直接用交并比来评估文本检测框回归情况的好坏也是存在缺陷的,因此损失函数的设计也有待改进。
发明内容
本发明的目的在于提供一种基于关联性层级残差的多实例自然场景文本检测方法,以解决当前文本检测方法对于小文本区域的检测效果不好,以及文本检测通常使用的损失函数不能很好评估文本检测框实际回归情况的问题。
为了达到上述目的,本发明采用以下技术方案:
步骤一,采用基于关联性层级残差的特征提取网络对原始输入图像进行特征提取,从而得到从低级到高级的包含丰富文本信息的不同尺度特征图;
步骤二,对步骤一中提取的不同尺度特征图进行反向逐级特征融合,从而得到多尺度融合特征图;
步骤三,对步骤二输出的多尺度融合特征图采用特征映射进行文本区域检测,输出一个像素级的文本分数特征图以及一个文本区域几何特征图,以此可以表征候选预测文本区域;
步骤四,对步骤三中生成的所有候选预测文本区域,根据每个候选预测文本区域的分数先预先进行简单的筛选和剔除;
步骤五,使用局部感知非极大值抑制算法对步骤四剩余候选预测文本区域进行合并和筛选,从而得到准预测文本区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464099.6/2.html,转载请声明来源钻瓜专利网。