[发明专利]用于文本检测的方法和装置有效
申请号: | 201610319516.1 | 申请日: | 2016-05-13 |
公开(公告)号: | CN107368826B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 马彬 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/50;G06V10/764;G06V10/74;G06V30/19 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 迟军 |
地址: | 日本东京都*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 检测 方法 装置 | ||
本发明提供一种用于文本检测的方法和装置。本发明用于对自然场景图像中的文本区域进行定位。其公开内容涉及文本检测方法和装置、及文本信息提取方法和系统。该用于检测图像中的文本区域的方法包括:根据输入图像生成组件;基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;根据连接到各组件的组件连接的方向分布,针对由组件连接而连接的各组件确定主方向,作为各组件的主方向;基于组件的主方向与连接组件的组件连接的方向之间的差,将由组件连接而连接的组件分组为至少一个组件组;以及基于至少一个组件组,生成文本区域。与现有技术相比,本发明能够对图像中的文本区域精确定位,并且检测结果可以进一步用于文本识别。
技术领域
本发明涉及计算机视觉、图像处理并理解,尤其涉及一种多方向文本检测方法和装置。
背景技术
在自然场景图像或视频帧中的文本携带有用于视觉内容理解和检索的重要信息。在图像中,特别是在自然图像或视频帧中提取文本信息或者检测文本,对许多计算机视觉应用(例如,对视觉障碍人士或外国人的计算机化援助、对图像或视频的自动检索以及城市环境中的机器人导航等)来说是至关重要的。不过,在自然场景中的文本检索是一个难题,主要的挑战在于具有不同的字体、大小、倾斜角或失真等的多样化的文本。像不均匀的照度和反射、照明不足条件以及复杂的背景等环境因素增加更多的复杂性。
用于在自然场景中进行文本区域检测的常用方法一般遵循如下的主要步骤:根据图像生成分离的组件,并基于某些规则将组件分组以生成组件组,然后验证组件组以移除非文本组,并通过使用剩余的文本组来恢复文本区域(例如文本行、文字等)。为了更好的性能,利用一组特征对所生成的组件进行过滤,以排除非文本组件。通常,从组件中提取几何特征和纹理特征,并把它们馈送到用于估算组件的文本可能性的分类器。
当对剩余的组件一起分组以生成组件组时,通常是基于不同组件之间的相似度测量或者空间距离。此外,组件分组步骤对于文本检测是必须的也是至关重要的,其中,对于将组件归类为文本部分,组件与其他邻近组件相关是最重要的。所以,确定哪些组件属于同一文本部分是很大的挑战。同时,文本的布局通常保持着复杂的布局,并且在自然场景中一般存在多方向文本,因此,如何正确地对文本组件进行分组,对于文本区域检测性能是至关重要的。
在相关文献中,公开了多种组件分组方法。例如,在公开号为CN103136523A的中国专利申请中,公开了一种自然图像中的任意方向文本行检测方法。该方法首先检测候选文本区域;然后找到候选文本行的三个种子区域(种子组件)并通过候选文本行扩展到行中的所有区域;最后过滤并移除非文本行。另一示例,即专利号为US6798895B1的美国专利,公开了一种字符串提取方法。该方法基于连接组件的延伸的边界框(水平地或垂直地)来处理水平的和垂直的文本行。
此外,《IEEE Transactions on Pattern Analysis and Machine Intelligence》刊登的出版物(X.Yin,W.Pei,X.Yin,J.Zhang,and H.Hao,《Multi-orientation scenetext detection with adaptive clustering》)中,公开了基于文本行的方向的组件分组方法。该方法首先基于组件的特征相似度,在组件之间生成组件连接;然后基于方向聚类分析所有连接的方向,并自动确定文本行的可能方向。因此,该方法在组件分组期间自动检测文本行的方向,而不是假设所有文本行都分布在某一特定方向上。
然而,在文本的布局很复杂的情况下,或者在具有不同方向的多个文本行位于一个局部区域的情况下,上面公开的方法只能检测一个特定方向中的文本,使得在不同文本行内的组件被错误地分组到同一组,并导致错误的检测结果。
术语释义
下面的术语在本文中频繁地出现,并以下面的详细描述来限定:
组件是指字符或噪声的基本元素,通常涉及具有相似的颜色、灰度或笔划宽度并在空间上连接的一组像素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610319516.1/2.html,转载请声明来源钻瓜专利网。