[发明专利]一种自然场景下证件图像的文本检测方法有效
申请号: | 201710854505.8 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107609549B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 张楠;靳晓宁;张文文;段禹心;贺思源 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然 场景 证件 图像 文本 检测 方法 | ||
本发明公开一种自然场景下证件图像的文本检测方法:选取常用汉字制造汉字图片,形成数据集1,对标注好的证件图像进行随机的旋转、裁剪操作,再用泊松克隆的方式融合不同背景图,形成数据集2;采用数据集1对VGG16网络进行文字分类模型的训练,待模型收敛后,用得到的参数初始化全卷积神经网络模型,并用数据集2训练模型;用训练好的全卷积神经网络模型处理图像,根据最大概率的方法得到每个像素点的分类情况,形成文本‑非文本二值图;用连通区域的方法得到文本的区域将原图像二值化,仅提取文本‑非文本区域二值图中文本区域内的文字信息,得到文本二值图;通过最大方差方法矫正图像;对矫正后图像再次投影,精修文本‑非文本区域二值图。
技术领域
本发明属于图像处理方法,尤其涉及一种自然场景下证件图像的文本检测方法。
背景技术
互联网技术的高速发展以及智能手机普及,大大方便了我们的生活。很多场景下,运营方需要用户上传证件(如身份证、营业执照等证件),验证用户的身份、资质。用户手机拍摄证件,上传验证,方便高效。由于用户在自然场景下拍照背景复杂、环境干扰因素多。自然场景下的拍摄背景多种多样,用户可能在纹理复杂的桌面、床单等等可能的生活场景中拍摄,这些纹理很难与文字区分开。拍摄照片中还存在文字被部分遮挡的情况,这也对文字检测造成了很大的挑战。用户拍照时所处的不同环境、所采取不同拍摄方式、不同拍摄设备,会使图像存在文本旋转、倾斜,光照不均匀,模糊、变形、噪点多等情况。传统针对扫描图像的文本检测技术难以达到很好的效果。
自然场景文字检测是计算机视觉与模式识别技术在目标检测与识别领域中的重要研究课题之一。对自然场景中的文字进行检测,其最终目的是为后续的文字识别与语义理解提供帮助。作为文字识别系统中的重要组成部分,自然场景文字检测技术可以辅助人们理解自然场景内容。自然场景文字检测作为自然场景文字识别系统完成图像采集后处理的第一步,其检测性能的好坏直接关系到整个系统识别率的高低。因此,如何快速、准确地检测出文字是自然场景文字识别技术中一个非常关键的问题。
目前,对图片进行文本检测的算法主要有两种:一、基于滑动窗口的方法和基于连通区域的方法。基于滑动窗口的方法是通过一个大小可变的滑动子窗口扫描一张图片所有可能的位置,来检测文本信息,其利用一个训练好的分类器来判别窗口内是否有文本信息;二、基于连通区域的方法首先通过一个底层的滤波器快速分割文本和非文本像素,然后把具有相似属性的文本像素连通起来构成文本成分。这类方法将图像中的文字看成某些特殊的区域或者具有某些特定的纹理特征。首先,我们可使用一些特征或方法在自然图像中提取候选区域作为文字的候选,这些特征包括颜色特征、纹理特征、边缘特征、笔画宽度变换、极值区域等等。经过筛选后滤去非字符的候选区域,将留下的区域视作字符并融合为文本行候选,再对文本行候选进行筛选得到最终的文本检测结果。过滤筛选的方法可以通过人工设计特征,选取阈值进行筛选,或者使用统计模型或机器学习算法对特征进行学习,自适应的对文字候选区域进行筛选。
笔画宽度转化(SWT,Stroke Width Transform)算法和最稳定极值区域(MSER,Maximally Stable Extremal Regions)算法是第二类方法的代表,也是最近几年主流的经典算法。
SWT(Stroke Width Transform,笔画宽度变换)提取文字候选的方法是建立在一系列一般性的假设上:文字都是由笔画构成,而笔画有一定的宽度,同一行文本的笔画宽度应该较为接近,而非文字部分不是由笔画构成,因此没有笔画宽度。基于这种假设,对图像进行笔画宽度变换,计算输入图像中每一个像素点所在的笔画的宽度值,将连通区域作为文字候选。
MSER(最大稳定极值区域)方法所采用的MSER区域是那些在一系列灰度阈值范围内能保持形状和大小的区域。它们有着锐利的边缘,并且与背景有很强烈的灰度值对比。一般由于形态上的特性,文字都含有丰富的边缘信息,另外文字作为一种信息传递方式,为了让人能够看清,都与背景有较为强烈的颜色与灰度值对比,因此文字基本都为MSER区域,而此类方法便是通过提取MSER区域作为文字候选.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710854505.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢坯号扫描装置
- 下一篇:一种用于低净空桥梁图像采集装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序