[发明专利]一种基于多层次文本组件定位与生长的文本区域提取方法有效
申请号: | 201811267160.7 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109460763B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 苏丰;丁文俊;汪洋;王雨阳;王岚 | 申请(专利权)人: | 南京大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06V30/148 |
代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 王斌 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 文本 组件 定位 生长 区域 提取 方法 | ||
本发明公开了一种基于多层次文本组件定位与生长的自然场景图像中文本区域提取方法,首先输入灰度或彩色RGB图像;在输入图像上运行MSER算法,进而以MSER边界作为区域边缘在MSER中运行SWT算法,获取极值区域内部像素的笔画宽度值;在极值区域中计算笔画宽度直方图,选取直方图中包含最多像素数量的三个笔画宽度对应的像素集合,并将通过边缘梯度差角特征验证的像素集合中的像素作为种子像素;基于种子像素,迭代进行字符内、字符间两个层次的生长过程,进一步基于多种文本区域特征对生长后获得的区域进行过滤,并将最终得到的文本区域作为结果输出。本发明提出的文本区域提取方法能够兼顾提取结果的精度和召回率,同时不依赖于特定机器学习模型,简单易重现。
技术领域
本发明属于图像目标检测领域,涉及一种在自然场景图像中基于多层次文本组件定位与生长的文本区域提取方法。
背景技术
自然场景图像中的文字包含了丰富的语义信息,对于理解图像和场景具有重要的意义,在图像理解、检索、分类、标注等应用中具有显著的利用价值。然而由于自然场景图像中的文字在尺寸、方向、颜色、语种、样式等属性上往往存在很大差异,并易于受到自然场景中光照、遮挡、背景等因素的影响,准确检测自然场景图像中的文字是一件具有挑战性的任务。
一般而言,自然场景图像文字检测可以分成两个子任务。第一步提取可能的字符候选区域,第二步合并属于同一文本行的字符候选区域。其中第一步的成功与否对自然场景图像中文字的有效提取至关重要,若不能准确并完整地提取出可能的字符候选区域,后续合并生成文本行的处理很难获得好的结果。
对于提取可能的字符候选区域这一步骤而言,目前常用的基于连通区域分析的两种经典算法分别是最大稳定极值区域(MSER)算法和笔画宽度变换(SWT)算法。其中MSER算法是基于分水岭的方法,侧重于反映极值区域内部的相对稳定性,未专门针对文字的特性予以刻画,并且该算法的提取结果依赖于区域内部像素灰度值变化率等参数的具体阈值设置,难以兼顾提取结果的精度和召回率。笔画宽度变换(SWT)算法虽然抓住并充分利用了文字笔画边缘的平行特征,但其可靠性很大程度上依赖于图像边缘像素的质量,并且在配对文字笔画边缘像素时严重依赖于两个像素梯度方向的差值阈值,不同的阈值设置将影响匹配结果进而影响最终的字符候选区域提取结果。在实际使用中,上述两种经典的文本区域提取方法往往采用固定、单一的参数阈值,其提取结果对选用的具体参数阈值十分敏感,而自然场景图像中的文字在外观和质量上差异很大,在算法中使用高阈值将提高提取结果的精度,但也将导致提取结果中遗漏很多文本区域;另一方面,使用低阈值将提高提取结果的召回率,但所提取文本区域的精度也会随之降低。由此可见,采用单一、非自适应的处理策略往往难以应对自然场景图像中文本复杂多变的情况。
中国发明专利CN107563380.A提供了一种结合MSER算法和SWT算法的车辆车牌检测识别方法。在该专利中的车牌检测部分,首先对输入图像进行灰度化和增强对比度操作,接着对处理后图像进行Canny边缘检测和MSER区域检测,然后将Canny边缘膨胀后与原MSER区域取交集得到候选车牌区域。进一步,对候选车牌区域运行基于形态学处理的SWT算法得到其中文字的笔画宽度,最后根据笔画宽度筛选并聚合候选区域得到最终的车牌位置。该方法对于文字与背景对比明显且文字边缘质量很高的车牌中文字具有良好的检测效果,但其包含的过多灰度化、边缘检测和形态学操作等处理使该方法在所适用图像文本类型上具有一定的局限性,难以有效处理自然场景图像中形式多样、背景复杂的文本对象。
发明内容
针对现有技术的不足,本发明提供了一种自适应的基于多层次文本组件定位与生长的自然场景图像中文本区域提取方法,采取先易后难、分而治之的策略区别对待具有不同检测条件的文本对象,即在多个对象粒度层次上,先使用相对严苛的检测条件提取图像中较规范的种子文本组件,然后基于获得的种子文本组件及其文本特征,放宽检测条件对质量较差的文本组件进行有效提取,以获得兼具更优精度和召回率的文本区域提取结果。
本发明具体采用如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811267160.7/2.html,转载请声明来源钻瓜专利网。