[发明专利]基于游程邻接图的复杂背景彩色图像中字符提取方法无效

专利信息
申请号: 200410062261.2 申请日: 2004-07-02
公开(公告)号: CN1588431A 公开(公告)日: 2005-03-02
发明(设计)人: 刘长松;丁晓青;陈又新;彭良瑞;方驰 申请(专利权)人: 清华大学
主分类号: G06K9/80 分类号: G06K9/80;G06K9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于游程邻接图的复杂背景彩色图像中字符提取方法,属于彩色图像文字识别预处理中的文字字符提取领域。在得到数字彩色图像之后,首先使用CRAG(color run-length adjacency graph)区域生长算法得到图像的所有彩色连通域,再通过对这些连通域的颜色平均值进行颜色聚类,得到若干个颜色中心,以此颜色中心形成不同的颜色层面,然后将符合连通域判别规则的彩色连通域分到若干个颜色层面上。最后通过特征分析和大小一致性判据从颜色层面中挑选出文字字符图像层面,获得在文字图像层面的字符图像。该算法解决了彩色文字字符笔画图像渐变的字符图像提取问题,并具有较高的提取速度,具有较高的提取准确率,同时保留了文字和背景图像的原始色彩,便于将来的图像恢复。
搜索关键词: 基于 游程 邻接 复杂 背景 彩色 图像 字符 提取 方法
【主权项】:
1.基于游程邻接图的复杂背景彩色图像中字符提取方法,其特征在于:它依次包含以下步骤:(1)通过图像采集设备把彩色印刷文档或照片图像扫描入图像处理器中;(2)在上述图像处理器中设定:图像的高和宽分别用符号H和V表示;图像中每一行象素与同一行和它紧邻的彩色游程在RGB空间内的欧氏距离opq的阈值为TD;从图像的第二行开始算起,该彩色游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离opp′的阈值是TV,选取TD=TV=12~16;连通域的初始中心与组成图像所有连通域的集合中的其他连通域在RGB彩色空间的欧氏距离ocn的阈值TC,选取TC=20~50;待选连通域最大高度Hmax=min(H,400),象素数;待选连通域最大宽度Vmax=min(V,400),象素数;待选连通域最小高度Hmin=3,象素数;待选连通域最小宽度Vmin=3,象素数;待选连通域的高宽比或宽高比的最小值为1,最大值为50;各连通域的象素密度用 ( Σ u = 1 m n f p u / h n × v n ) 表示,hn和vn分别指代的是所得彩色连通域的高和宽,mn表示第n个连通域内的彩色游程数,fpu表示第pu个游程的游程长度,设定: Q 2 > ( Σ u = 1 m n f p u / h n × v n ) > Q 1 , Q1=0.1~0.5,Q2=0.6~1;在连通域彩色聚类过程中的阈值TC=20~50;在选取得到的备选彩色层面数K≤L+2,L=4;(3)分割彩色图像,获取彩色连通域,即一幅图像用连通域集合来描述;(3.1)从每一行的第一个象素开始,认为该象素为一个新的游程的起始点,计算该起始点和同一行中与它紧邻的象素在RGB空间内的欧氏距离opq,其中所述的彩色游程表示如下:Rp{(rp,gp,bp),(xp,yp),fp},rp,gp,bp是游程上各点在RGB彩色空间的r,g,b颜色分量平均值,(xp,yp)为该游程的起始坐标,fp为游程的长度: o pq = ( r q - r p ) 2 + ( g q - q p ) 2 + ( b q - b p ) 2 . 若opq<TD,则把两个象素合并成为一个游程,并计算该游程的平均r,g,b值,即rp,gp,bp: r p = ( r p × f p + r q ) f p + 1 ; g p = ( g p × f p + g q ) f p + 1 ; b p = ( b p × f p + b q ) f p + 1 ; 游程的长度增1:fp=fp+1;反之,第二个象素便成为新游程的起始点,继续计算其与下一个相邻象素的欧氏距离,如果仍小于TD,就将该象素加入该游程,并重新计算它的r,g,b值,否则,以该象素点为下一个新游程起始点;根据上述规则,可以这样遍历图像每一行中的所有象素得到若干个彩色游程;(3.2)从图像的第二行开始得到彩色游程后,计算该游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离opp′: o pp = ( r p - r p ) 2 + ( g p - g p ) 2 + ( b p - b p ) 2 . 判断该距离是否小于TV,若小于则合并为同一个连通域,即连接这两个游程;反之,作为新连通域的起始游程;以这种方式遍历完整幅图像后,根据游程之间的连接关系便可以得到组成图像的所有连通域的集合{Cn|n=1,2,...,K};所述连通域用下列结构式表示:Cn{(rn,gn,bn),Xn,(vn,hn)},(rn,gn,bn)表示的是连通域Cn的平均颜色r,g,b值, r n = Σ u = 1 m n ( r p u × f p u ) / Σ u = 1 m n f p u - - - ( 1 - 2 ) g n = Σ u = 1 m n ( g p u × f p u ) / Σ u = 1 m n f p u - - - ( 1 - 3 ) b n = Σ u = 1 m n ( b p u × f p u ) / Σ u = 1 m n f p u - - - ( 1 - 4 ) Xn={Rpu| u=1,2...mn}表示该连通域内包含的所有彩色游程的集合,通过简单计算很容易得到连通域的高vn和宽hn;(4)对连通域进行彩色聚类,以得到适当数目的颜色聚类中心;同时按以下三个准则选取参与彩色聚类的连通域样本:1)Hmin<hn<Hmax,Vmin<vn<Vmax,即参与彩色聚类的连通域的高度和宽度都要在上述设定范围内;2) H _ V min < h n / v n < H - V max , 或者 V _ H min < v n / h n < V _ H max , 其中的H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值,同样,V_Hmin和V_Hmax指的是宽高比的最小和最大值;3) Q 2 > ( Σ u = 1 m n f p u / h n × v n ) > Q 1 , 即连通域的象素密度在Q1和Q2之间;(5)形成图像层面,并从中删除噪声层和明显的背景层,并得到有可能包含文字的图像层;(5.1)形成图像层面把所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较,如果连通域的平均颜色值和颜色中心的欧氏距离小于TC,便将满足这个条件的连通域放在一个图像层面上,从而可以得到多个层面,同时把它们全部转为白底黑字的图像;(5.2)按照以下准则依次排除非文字字符层1)当每一个文字层的象素数少于200个,定为噪声层,予以排除;2)如果连通域的高和宽和测试图像大小相当,就把该连通域的中心颜色作为背景色,它所在层面为背景层面;(5.3)在前景色不多于L个的条件下,若剩下图像层面数大于L个时,便选取层面中所包含黑色象素总数排在前L+2个的层面,作为可能存在文字字符图像的层面,按以下步骤处理;前景指的是整幅图像中所包含的文字字符图像,前景色指的是这些文字字符图像的大致颜色,图像中除了文字字符图像以外的部分都称为背景;(6)根据一致性判据公式计算得到的步骤(5.3)所得的可能的文字字符图像层的一致性判决值Pi,(1≤i≤K),K为上述层面数,进行排序,其Pi值最大的层面即为最可能的文字字符层面;(6.1)对于所述K个层面分别作为水平和垂直方向的投影,可以得到水平方向投影宽度uil(0≤l<Ni)和垂直方向的投影宽度wij(0≤j<Mi),i为图像层面的序号,l代表水平方向投影宽度的序号,j代表垂直方向投影宽度的序号,为了消除小噪声的干扰,每一个坐标位置上的对应的投影黑色象素数目必须超过5个;同时,仅统计两个方向上投影宽度超过10个象素宽的投影个数Ni和Mi,即Ni和Mi分别为在两个方向上得到的符合要求的投影宽度的总数;水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度eis(0≤s<Zi),垂直方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度dit(0≤t<Yi),Zi和Yi分别为在两个方向上得到的投影间隔宽度的总数;(6.2)计算以下各值:水平方向投影的平均宽度 AvgH i = 1 N i Σ l = 0 N i - 1 u il , 垂直方向投影的平均宽度 AvgW i = 1 M i Σ j = 0 M i - 1 w ij , 水平方向投影间隔的平均宽度 AvgE i = 1 Z i Σ s = 0 Z i - 1 e is , 垂直方向投影的平均宽度 AvgD i = 1 Y i Σ t = 0 Y i - 1 d it , 水平投影宽度的方差为 VarH i = Σ l = 0 N i - 1 ( u il - Avg H i ) 2 / N i , 垂直投影宽度的方差为 VarW i = Σ j = 0 M i - 1 ( w il - Avg W i ) 2 / M i , 水平投影间隔宽度的方差 VarE i = Σ s = 0 z i - 1 ( e il - Avg E i ) 2 / Z i , 垂直投影间隔宽度的方差 VarD i = Σ t = 0 Y i - 1 ( d it - Avg D i ) 2 / Y i ; (6.3)在原文字区域图像内文字颜色单一,所含文字行或列的总数小于三个,且行或列方向上的文字近似在一条直线上,按下式计算一致性判据值Pi: P i = min ( Avg H i / Avg W i , Avg W i / Avg H i ) × H × V ( 1 + | max ( N i , M i ) - max ( H / V , V / H ) | / 2 ) × ( 1 + max ( Var D i ) ) × ( 1 + max ( Var H i , Var W i ) ) i为层面数,i=1,...,K;对得到的Pi按大小排序,取其值最大的文字层面供文字字符切分与识别使用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200410062261.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top