[发明专利]文本检测的方法及装置在审
申请号: | 201610465718.7 | 申请日: | 2016-06-23 |
公开(公告)号: | CN107545261A | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 麻文华 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46 |
代理公司: | 北京怡丰知识产权代理有限公司11293 | 代理人: | 迟军 |
地址: | 日本东京都*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 方法 装置 | ||
技术领域
本发明一般涉及但不仅限于计算机视觉、图像处理和理解,并且更具体地涉及文本检测方法及装置。
背景技术
自然场景图像和视频帧中的文本携带用于视觉内容理解和检索的重要信息。在图像中,特别是在自然图像或视频帧中检测文本,对许多计算机视觉应用(例如,对视觉障碍人士或外国人的计算机化援助、对图像或视频的自动检索以及城市环境中的机器人导航等)来说是至关重要的。
然而,自然场景中的文本检测是个棘手的课题,主要的挑战在于具有不同字体、大小、歪斜角度或失真等的文本的多样化。诸如不均匀照明及反射、不良的采光条件以及复杂的背景等的环境因素,增加了更多复杂性。
在相关文献中,用于检测自然场景中的文本区域的文本检测方法,通常遵循以下主要步骤:由图像生成孤立的组件,并且基于某些规则将这些组件分组以生成组件组,然后,验证这些组件组以移除非文本组,并且通过使用剩余的文本组来恢复文本区域(例如文本行、文字)。
组件分组的结果通常需要进一步验证,有两个主要原因。首先,存在由凑巧保持有与文本组类似的感知组织的非文本组件构成的噪声组件组。例如,在空间上靠近并且在外观上相似的非文本组件也可能被分组在一起并被保留。其次,多行或多方向文本常见于自然场景中,如何正确地将文本组件分组,对文本区域检测性能是至关重要的。在组件分组步骤期间,针对较少的判断布局模式的证据,保留多个假设。基于上述分析,在公开的文献中的一些文本检测方法还包括组验证步骤,即,对组件组进行分析并将组件组分类为文本组和非文本组,仅文本组被用来恢复文本区域(例如文本行、文字),而非文本组将被移除。
例如,中国专利申请CN103077389和专利申请CN10418274429两者都公开了如何基于组等级(group-level)特征和分类器来验证组件组。组等级特征通常从两个方面来描述组:规律性和字符相似度(likeness)。前者包括属于组的组件在大小、颜色、间隙和笔划宽度以及组中的组件的空间布置方面的差异。通常由字符分类器来测量组中的组件的字符相似度,然后将值合成在组内。这些组等级特征,能够被用作文本分类器的输入特征向量或级联(cascade)规则。基于特征来计算组的文本置信度值,并且保留高文本置信度的组。但是性能取决于分类器中使用的特征和训练样本。难以以高规律性来拒绝非文本组,或者接受与训练样本不同的文本组。
进一步的示例,美国专利US8320674和US6563949两者都公开了如何基于识别结果来验证组件组。通过OCR引擎来识别组件组,并拒绝具有低识别置信度的组。对于诸如多行或多方向文本等的复杂布局情况,保留满足语言模型的组。但是性能在很大程度上与识别引擎和语言模型有关,并且识别组中的所有组件耗时,尤其当组件的量大时。
事实上,如果将识别结果视为组的一个特殊特征,则能够将两种现有技术统一。它们的一个共同缺点是各个组被孤立地评价;而图像中的全局信息被忽略。
参考文献
在下面的详细描述中参考了下列文献:
[1]L.Neumann and J.Matas,“On combining multiple segmentations in scene text recognition”,International Conference on Document Analysis and Recognition(ICDAR),pp 523–527,2013。
[2]Xu-cheng Yin,Xuwang Y.,Kaizhu H.,Hongwei Hao,“Robust text detection in natural scene images”,IEEE Trans.on Pattern Analysis and Machine Intellignece,Vol.36,No.5,2014。
[3]Boris Epshtein,Eyal Ofek,Yonatan Wexler,“Detecting text in natural scenes with stroke width transform”,Computer Vision and Pattern Recognition,IEEE Computer Society Conference on,pp.2963-2970,2010。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610465718.7/2.html,转载请声明来源钻瓜专利网。