[发明专利]一种基于水平集分割的文本抽取方法有效

专利信息
申请号: 201510474071.X 申请日: 2015-08-05
公开(公告)号: CN105160300B 公开(公告)日: 2018-08-21
发明(设计)人: 吕英俊;李敏花;柏猛;吕雪菲 申请(专利权)人: 山东科技大学
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 张勇
地址: 266590 山东省青*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 水平 分割 文本 抽取 方法
【说明书】:

发明公开了一种基于水平集分割的文本抽取方法,包括:读取图像数据信息,确定边界曲线;对读取的图像进行灰度化;抽取灰度特征值;根据灰度特征值采用水平集函数将图像分为两个区域;对分割出的两个区域进行二值化;对二值化后的两个区域分别进行连通元标定;对两个区域中标定的连通元进行滤波;对滤波后的区域进行极性判定,判断出文本像素区域和背景像素区域;对文本区域进行滤波,滤除背景噪声;输出文本抽取结果。本发明不仅能够抽取复杂背景中的文本信息,而且对含空心字的图像文本抽取也十分准确,具有一定的通用性和实用性。

技术领域

本发明涉及图像处理领域中的文本抽取方法,尤其涉及一种基于水平集分割的文本抽取方法。

背景技术

随着网络和计算机技术的发展,越来越多的信息以图像或视频等多媒体的形式出现。图像或视频中含有丰富的文本信息,这些文本信息对图像或视频起着说明和诠释的作用。提取和识别这些文本信息对图像理解、视频内容分析、智能交通、机器视觉、智能控制等方面有着重要的意义。然而,由于文本信息通常处于复杂背景中,通用的OCR系统很难识别出文本信息。因而文本检测出来在提交给OCR系统之前还需要一个去除背景的过程即文本抽取过程。因此,如何从复杂背景图像中抽取文本信息,成为以文本信息为线索来理解图像内容的一个关键任务。

现有的图像文本抽取技术主要分为基于阈值的方法、基于聚类的方法和基于统计模型的方法。基于阈值的方法主要利用文本和背景颜色的分割,设定阈值将文本和背景分离。阈值的选取有全局阀值和局部阀值两种。该种方法抽取的效果取决于阀值对图像背景和文本的区分度,一般适用于图像背景比较单一的情况。基于聚类的方法一般利用颜色信息将文本块图像分为K类,然后根据某一聚类算法和设定的阀值将符合规则的类聚合,逐步的减少颜色的分类数。文本像素最后对应其中的一类,其余各类均为背景。这类方法但当背景中含有与文本颜色相同或相近的成分时,这些成分会被误分入文本类,从而产生大量的残余背景,影响OCR识别。基于统计模型的方法对文本块中的所有像素建立概率模型,然后设定合理的概率模型中的参数,然后根据最大似然法则确定每个像素是否属于文本像素。概率模型方法中模型参数一般需要统计学习得到,需要大量的学习样本。

上述各种文本抽取方法,只利用了图像底层局部的灰度或彩色信息,对复杂背景图像中的文本或空心字进行抽取时,往往存在残余背景,文本抽取效果不好。

发明内容

本发明的目的就是为了解决上述问题,提供一种基于水平集分割的文本抽取方法。首先采用水平集函数把图像分为两个区域,然后对两个域进行极性判断,判断出文本区域和背景区域,最后对文本区域滤波,去除背景噪声。该方法利用了图像的全图信息,不仅能够抽取复杂背景中的文本信息,而且对空心字图像的抽取效果也十分理想。具有一定的通用性和实用性。

为了实现上述目的,本发明采用如下技术方案:

一种基于水平集分割的文本抽取方法,包括:

读取图像数据信息,确定边界曲线;对读取的图像进行灰度化;抽取灰度特征值;根据灰度特征值采用水平集函数将图像分为边界曲线内区域和边界曲线外区域;对分割出的两个区域进行二值化;对二值化的两个区域分别进行连通元标定;对两个区域中标定的连通元进行滤波;对滤波后的区域进行极性判定,判断出文本像素区域和背景像素区域;对文本区域进行滤波,滤除背景噪声;输出文本抽取结果。

具体步骤包括:

步骤(1):给定图像u0(x,y),(x,y)∈Ω,Ω为图像区域,ω为Ω的开子集,C为ω的边界曲线,读取图像信息;

步骤(2):对读取的图像灰度化;

步骤(3):抽取图像的灰度特征值;

步骤(4):采用水平集函数图像分割成边界曲线内区域和边界曲线外区域;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510474071.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top