[发明专利]场景文字检测方法有效
申请号: | 201910567794.2 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110263877B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张勇东;王裕鑫;谢洪涛;李岩 | 申请(专利权)人: | 中国科学技术大学;北京中科研究院 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/166;G06V30/19 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 文字 检测 方法 | ||
本发明公开了一种场景文字检测方法,包括:利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;将映射到相同尺寸的特征图进行尺度信息的融合,得到融合后的特征图,这一融合操作能够使不同尺寸的文字在融合后的特征图中统一激活;对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。上述方法能够从根本上提升特征图的质量,从而提升场景文字检测的性能。
技术领域
本发明涉及文字识别技术领域,尤其涉及一种场景文字检测方法。
背景技术
自然场景文字检测与识别是一种通用的文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向,其被广泛应用于车牌识别、无人驾驶、人机交互等领域。
由于自然场景中的文字检测与识别面临背景复杂、分辨率低下、字体多变等困难,导致传统的文字检测与识别技术无法应用到自然场景的文字检测与识别中。文字检测技术作为识别的基础,具有重大的研究意义。
近年来,随着深度学习技术在目标检测领域的发展,通用的目标检测技术在场景文字检测中达到了比较好的效果。深度学习运用于自然场景文字检测成为了一种趋势。但是由于这些方法包含较繁琐的后处理步骤和文字检测本身的多样性,导致检测的速度和精度还有待提升。
发明内容
本发明的目的是提供一种场景文字检测方法,能够提升文字检测的召回率。
本发明的目的是通过以下技术方案实现的:
一种场景文字检测方法,包括:
利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;
以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;
将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;
对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
由上述本发明提供的技术方案可以看出,通过尺寸映射操作可以统一特征图的尺寸,通过建立尺度关系能够传递特征图的尺度信息,由于不同尺寸的特征图对不同尺度的文字具有更好地表达(小尺寸的特征图能够更好地检测大目标而丢失小目标的细节,大尺寸的特征图则相反),从而能够使不同尺度的文字在特征图中实现更加统一地激活,从根本上提升特征图的质量,从而提升场景文字检测的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种场景文字检测方法的示意图;
图2为本发明实施例提供的尺寸映射的示意图;
图3为本发明实施例提供的双向卷积操作的示意图;
图4为本发明实施例提供的特征聚合操作的示意图;
图5为本发明实施例提供的场景文字检测结果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京中科研究院,未经中国科学技术大学;北京中科研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910567794.2/2.html,转载请声明来源钻瓜专利网。