[发明专利]一种基于线性结构提取的自然场景文本检测方法有效
申请号: | 201510046301.2 | 申请日: | 2015-01-29 |
公开(公告)号: | CN104573685B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 邹北骥;吴慧;陈再良;赵于前 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62 |
代理公司: | 长沙市融智专利事务所43114 | 代理人: | 黄美成 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于线性结构提取的文本检测方法,将文本连通区域看作是不同形状的线性结构的组合;通过提取线性结构,粗略定位文本区域;然后通过色彩聚类和基于色彩距离的区域生长,从初始文本区域中得到完整的文本连通域。进一步分析连通区域的几何和空间位置特征,得到候选文本字符串。其中,线性结构的提取采用多尺度Hessian矩阵滤波方法,分别对原始彩色图像的R、G和B三个通道上操作,使得本方法在一定程度上,克服光照对图像的影响;通过高斯混合模型色彩聚类和基于色彩距离的区域生长,两步色彩分析方法,使得本方法对不同大小、笔画宽度文本的检测性都较好,进一步提高本方法的鲁棒性。 | ||
搜索关键词: | 一种 基于 线性 结构 提取 自然 场景 文本 检测 方法 | ||
【主权项】:
一种基于线性结构提取的自然场景文本检测方法,其特征在于,该方法包括以下步骤:步骤1:获取待进行文本检测的原始图像的R、G、B色彩通道图像;步骤2:分别计算步骤1中获得的R、G、B色彩通道图像中每个像素点的Hessian矩阵,并计算对应Hessian矩阵的两个特征值λ1和λ2,其中,|λ2|≤|λ1|;步骤3:基于每个像素点的Hessian矩阵,提取色彩通道图像中的线性结构;利用高斯核函数按照以下公式依次对R、G、B色彩通道图像中每个像素点的Hessian矩阵进行卷积滤波操作,获得每个色彩通道图像中每个像素点的较亮滤波结果和较暗滤波结果,从而得到每个色彩通道图像的较亮滤波图像和较暗滤波图像并从中提取出文本字符所在区域对应的线性结构;Fδ1(x,y)=0,ifλ2>0e-RB22β2(1-e-S22c2),otherwise]]>Fδ2(x,y)=0,ifλ2<0e-RB22β2(1-e-S22c2),otherwise]]>其中,δ表示高斯核函数中的尺度,δ∈[1,4];对于每个像素点的Hessian矩阵变换,RB表示特征值比率,RB=λ1/λ2,S表示特征值模长,c表示每个色彩通道中所有像素点中模长的最大值的二分之一,c=max(S)/2,β是常量,β∈[0,1];步骤4:对线性结构进行定位;对每个色彩通道图像的较亮滤波图像和较暗滤波图像按照设定的二值化阈值进行二值化操作,将灰度大于二值化阈值的像素点置为1,灰度小于二值化阈值的像素点置为0,提取文本像素点的位置,对线性结构进行定位,获得每个色彩通道图像对应的两幅线性结构定位图;步骤5:将三个色彩通道图像对应的两幅线性结构定位图分别对应合并,得到两幅线性结构定位合并图;步骤6:提取线性结构定位合并图中的连通域,将连通域合并,获得文本字符串;从两幅线性结构定位合并图中分别提取连通区域,计算每个连通区域的几何和空间位置特征,利用相邻连通区域的高度、笔画宽度、垂直重复率和水平距离在设定范围内的连通区域进行合并,获得文本字符串及其所在图像中的位置;所述连通区域的几何特征包括连通区域的高度、笔画宽度,空间位置特征包括连通域之间的垂直重复率、水平距离;所述步骤6中连通域的合并过程,具体如下:步骤6.1:对待进行字符合并的图像进行连通域搜索,获取每个连通域的最大外接矩形的高度h,并根据所述最大外接矩形几何中心水平坐标位置,按照从左到右、从上到下的顺序,依次采用标签标记连通域;每个连通域的标签即为对应连通域的最大外接矩形几何中心水平坐标,最大外接矩形几何中心水平坐标以图像的左上角为原点;步骤6.2:利用现有的连通域笔画宽度计算方法,计算步骤6.1获得的连通域中每个像素点的笔画宽度,并将每个连通域中所有像素点的笔画宽度的平均值,作为该连通域的笔画宽度sw;步骤6.3:将标签最小的连通域记为cF,并加入文本字符串,标签大于cF的标签的连通域记为候选邻域字符cL,依次将cF和每个cL视为字符对,提取每对字符对的高度比Rh、笔画宽度比Rsw,垂直重复率Rvol和水平距离D,计算公式分别如下:Rh=max(hL,hmean)min(hL,hmean)]]>Rsw=max(swL,swmean)min(swL,swmean)]]>Rvol=vFL(hF+hL)/2]]>D=dFL(hF+hL)/2]]>其中,hL、swL分别表示候选邻域字符cL的高度和笔画宽度;hmean、swmean分别表示字符串中所有字符高度和笔画宽度的平均值;vFL、dFL分别表示字符cF与候选邻域字符cL的外接矩形的垂直重复率和水平距离;hF表示标签最小的连通域cF的高度;步骤6.4:将同时满足Rh≤T1,Rsw≤T2,Rvol≥T3,D≤T4四个条件的所有cL加入文本字符串,其中,T1、T2、T3和T4分别表示字符对高度比、笔画宽度比、垂直重复率和水平距离的阈值,取值范围为T1∈[1,2.5],T2∈[1,2.5],T3∈[0.5,1],T4∈[0,3];步骤6.5:将新加入的连通区域中标签最大的字符作为新的CF,重复步骤6.4‑6.5找到所有满足条件的连通区域,得到某一完整字符串;步骤6.6:对步骤5得到的两幅线性结构定位合并图,重复步骤6.1‑6.6,找到所有文本字符串,得到最终的文本检测结果;对两幅线性结构定位图进行色彩分析获得更加完整的字符串,具体过程如下:步骤7.1:基于高斯混合模型对两幅线性结构定位图进行色彩聚类,获得色彩层信息,按照色彩层信息,对两幅线性结构定位图中的每个像素点按照色彩层信息获得对应的色彩聚类结果图;步骤7.2:对每幅色彩聚类结果图中的像素点作为初始种子点,采用基于色彩距离的区域生长方法,填充色彩聚类结果图中的离散线性结构,得到每幅色彩聚类结果图中的完整的连通域,用于字符合并;对步骤6获得的文本字符串进行得分计算,保留满足设定条件的文本字符串,作为最终的检测结果;所述步骤5的线性结构定位图的合并规则具体如下:M1′=Ir1∪Ig1,ifsum(Ir1∩Ig1)>sum(Ir1∩Ig2)Ir1∪Ig1,otherwise]]>M1=M1′∪Ib1,ifsum(M1′∩Ib1)>sum(M1′∩Ib2)M1′∪Ib2,otherwise]]>M2′=Ir2∪Ig2,ifsum(Ir2∩Ig2)>sum(Ir2∩Ig1)Ir2∪Ig1,otherwise]]>M2=M2′∪Ib2,ifsum(M2′∩Ib2)>sum(M2′∩Ib1)M2′∪Ib1,otherwise]]>其中,Ir1、Ig1和Ib1分别表示R、G和B色彩通道较亮线性结构定位结果,Ir2、Ig2和Ib2分别表示R、G和B色彩通道较暗线性结构定位结果;M'1和M1分别为以Ir1为初始合并对象得到的中间合并结果和最终合并结果;M'2和M2分别为以Ir2为初始合并对象得到的中间合并结果和最终合并结果;所述步骤7.1的具体步骤如下:使用高斯混合模型,对两幅线性结构结果图中的像素点进行色彩聚类,得到色彩层,进一步包括以下步骤:步骤A1:对线性结构定位图中的像素点,提取其在R、G和B通道上的值作为色彩特征;步骤B1:用K均值方法,根据步骤A1获取的色彩特征,将像素点分成K类,K取值为3~5之间的整数,计算每个类的聚类中心μi和标准差σi,1≤i≤K,利用聚类中心和标准差初始化高斯混合模型P(x|μ,σ):P(x|μ,σ)=Σi=1KωiPi(x|μi,σi)]]>其中,x表示被分类的像素点,ωi、μi和σi分别表示第i个高斯混合模型的权重、均值和标准差;步骤C1:用最大期望算法,迭代优化高斯混合模型中的参数,直到收敛,计算公式如下:ωit+1=1NΣj=1KPi(xj|μit,σit)]]>μit+1=Σj=1NPi(xj|μit,σit)xjΣj=1NPi(xj|μit,σit)]]>μit+1=Σj=1NPi(xj|μit,σit)(xj-μit+1)2Σj=1NPi(xj|μit,σit)]]>其中,xj表示第j个像素点,和表示第i个高斯模型在第t次迭代步骤下的均值和方差,表示在第t次迭代步骤下,xj像素点在第i个高斯模型下的概率,和表示第t+1次迭代步骤下,第i个高斯模型的权重、均值和方差;N表示线性结构定位图中像素点的个数,t表示第t次迭代步骤;步骤D1:对于某一像素点,将其归类到概率值最大的高斯模型中;对图像中所有像素点分类,得到K个色彩层;对两幅线性结构定位图中的每个像素点按照色彩层信息获得对应的色彩聚类结果图;所述步骤7.2的具体过程如下:步骤A2:将色彩聚类结果图中的像素点,作为初始种子点,加入集合Ci中,将对应色彩中心(μi(r),μi(g),μi(b)),作为初始的色彩中心,其中,i表示第i个色彩层;步骤B2:获取所有初始种子点的8邻域像素点,对于不在集合Ci中的邻域像素点,计算其RGB色彩值(p(r),p(g),p(b))与色彩中心的距离,计算公式如下:Dc=(p(r)-μit(r))2+(p(g)-μit(g))2+(p(b)-μit(b))2]]>其中,t表示第t次迭代,第t次迭代色彩层Ci的色彩中心;步骤C2:将满足条件Dc<48的邻域像素点加入集合Ci,按照下面的公式,更新色彩中心,完成此步区域生长:μit+1(r)=1NΣj=1Nxjr,μit+1(g)=1NΣj=1Nxjg,μit+1(b)=1NΣj=1Nxjb]]>步骤D2:将上步骤中得到区域生长结果图中的像素点,作为新的种子点,重复步骤B2‑C2,直到没有满足条件的像素点加入Ci,得到该色彩层最终的区域生长结果;步骤E2:对于所有色彩聚类结果图,分别进行步骤A2‑D2所述区域生长过程,得到对应图像的区域生长结果图,用于提取字符连通域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510046301.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于模糊退化模型的车牌二值化方法
- 下一篇:一种编码信息扫描方法及装置