[发明专利]一种基于仿射变换的自由场景文本检测方法有效

专利信息
申请号: 201710717760.8 申请日: 2017-08-21
公开(公告)号: CN107688806B 公开(公告)日: 2021-04-20
发明(设计)人: 刘晶;张琳;刘钰;蒋晓悦;王西坡 申请(专利权)人: 西北工业大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/32;G06K9/34;G06T3/00;G06T7/13
代理公司: 西北工业大学专利中心 61204 代理人: 金凤
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于仿射变换的自由场景文本检测方法,涉及图像处理领域,本发明将MSER与SWT结合,实现文本检测,之后利用每个字符的外界四边形的顶点,并结合惯性主轴找到反映文本畸变特性的四边形,从而找到仿射参数进行仿射变换,最终实现图像文本的检测和畸变的消除,本发明显著提高文本的准确率,较单一的基于连通区域的文字检测方法,可以提高其召回率和检测效率,进行自动仿射变换,最终实现图像文本的检测和消除,相比其他人工进行仿射变换,大大挺高了工作效率,并且使之后的OCR识别更加准确。
搜索关键词: 一种 基于 变换 自由 场景 文本 检测 方法
【主权项】:
一种基于仿射变换的自由场景文本检测方法,其特征在于包括下述步骤:步骤1、进行文本检测,具体步骤如下:步骤1.1、采用MSER检测候选的文本区域采用MSER算法检测图像,得到候选文本区域I,其中MSER算法的表达式为:q(i)=|Qi+Δ‑Qi‑Δ|/|Qi|  (1)其中,q(i)是阈值为i时区域Qi的变化率,Qi是阈值为i时的某一连通区域,△为灰度阈值的微小变化量,Qi+Δ是阈值为i+Δ的连通域,Qi‑Δ是阈值为i‑Δ的连通域,当q(i)为局部极小值时,Qi为最大稳定极值区域;步骤1.2、基于基本几何属性删除非文本区域通过MATLAB软件中的regionprops算子对图像进行检测,图像中每个候选文本区域I均得到一组参数值:图像的长宽比值为aspectRatio,偏心值为Eccentricity,欧拉数EulerNumber,检测区域和其最小凸多边形中的面积比例Solidity,检测区域和其最小边界矩形中的面积比例Extent,设置阈值删除非文本区域,即当图像中每个候选文本区域I的参数值不在阈值范围内时,将其判定为非文本区域;其中阈值设置为:aspectRatio>0.3Eccentricity>0.995Solidity<0.3Extent<0.2EulerNumber<‑4  (2)将满足公式(2)条件的区域设置为文本区域I1;步骤1.3、采用SWT算法删除非文本区域对文本区域I1依次进行笔画宽度检测,即先对文本区域I1利用canny算子进行边缘检测,得到边缘点p的梯度方向dp,沿着p+n*dp的方向搜索另一个边缘点q,其中,n>0,且n=1,2,3...,n值从取1开始,计算q点的梯度方向dq,当dq与dp的方向满足dq=‑dp±π/6,将[p,q]连线上的每一个像素点笔画宽度值设置为如无符合dq=‑dp±π/6条件的q点,则放弃该搜索方向,并将n值加一,更新p+n*dp搜索方向,沿着更新后方向继续寻找符合dq=‑dp±π/6方向的q点,直到检测完文本区域I1内所有的边缘点,当某一连通区域内各像素点的笔画宽度值均不同时,则该连通区域为虚警,该区域的笔画宽度值为无穷;将区域的笔画宽度值取值为非无穷的点进行连通区域合并,得到连通区域集合I2,统计各连通区域的笔画宽度值,即用连通区域集合I2内笔画宽度的众数代表该区域的笔画宽度值,得到swti=mode(swtp,p∈i)  (3)式(3)中,swti表示连通区域集合I2的笔画宽度值,mode代表取众数,swtp表示连通区域集合I2内每个边缘点p的笔画宽度值;求得连通区域集合I2内全部连通区域i的笔画宽度值后,对其是否是文字区域进行判断,得到单个文字字符构成的文字区域I3,具体判断方法为:计算var(swti,i∈H),即求方差,当方差低于阈值时,则保留该区域;所述的阈值取值范围为60—90;步骤1.4、合并区域I3找到相邻文本区域,即将区域I3通过BoundingBox函数得到每个字符的横坐标值x,纵坐标值y,长l和宽w,从而形成多个矩形BOXES,设矩形中四个顶点的坐标为(xi,yi),且满足表达式x<xi<x+ly<yi<y+w---(4)]]>将矩形内每个点的灰度值设置为p,p值为小于255的任意值,将矩形外区域的点的灰度值设置为0,将每个矩形BOXES内外的灰度值相加,若两个BOXES存在重叠,由于每个BOXES的灰度值为p,将重叠部分的灰度值相加后,重叠部分的灰度值则大于p,将所有重叠部分连接得到文本区域I4,文本区域I4即为单词或者一行文字,同时将灰度值为p和0的部分规定为由单个字符组成的文本区域,将由单个字符组成的文本区域删除;步骤2、外接矩形坐标的确定与畸变矫正每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标,找到四边形四个顶点中横坐标最小的点P1,纵坐标最大的点P2,横坐标最大的点P3和纵坐标最小的点P4,此时会出现四个极值点或两个极值点两种情况,下面将两种情况进行具体说明:a)存在四极值点找到四个顶点,将四个顶点连接起来,即可得到文本的外接四边形,并得知外接四边形的坐标值;b)存在二极值点此时横坐标的极小值和纵坐标的极大值重合为一个点,同时横坐标的极大值和纵坐标的极小值重合为另外一个点,即只得到点P1的坐标(xmax,ymin)和点P3的坐标(xmin,ymax),根据两个已知顶点计算惯性主轴的具体方法如下:惯性主轴的方向是最小惯性轴与横坐标轴的夹角,角点为图像中每个矩形BOXES的顶点,设Q为图像中角点的集合,设角点坐标为(xi,yi),且i=1,2,…,N,N为图像中所有角点的总数,角点区域的质心定义为x‾=1NΣi=1Nxi,y‾=1NΣi=1Nyi---(5)]]>将质心移动至坐标原点,从而角点集Q对质心的惯性矩Gq定义为Gq=Σi=1N[(xi-x‾)2+(yi-y‾)2]---(6)]]>角点集Q对过原点的直线L的惯性矩Gθ为Gθ=Σi=1N[(xi-x‾)sinθ-(yi-y‾)cosθ]2---(7)]]>其中,θ为直线L的倾斜角,惯性矩Gθ最小的方向为惯性主轴的方向,即使Gθ最小的角θ,求惯性矩Gθ的导数为:G′θ=2Σi=1N[(xi-x‾)sinθ-(yi-y‾)cosθ]·[(xi-x‾)cosθ-(yi-y‾)sinθ]=Σi=1N[(xi-x‾)2-(yi-y)2]sin2θ-2Σi=1N(xi-x‾)(yi-y‾)cos2θ---(8)]]>令Gθ′=0,则tan2θ=2Σi=1N(xi-x)(yi-y)Σi=1N[(xi-x‾)2-(yi-y‾)2]---(9)]]>令则tan2θ=2m11m20-m02---(10)]]>由于带入公式(7)中可得m11tan2θ+(m20‑m02)tanθ‑m11=0  (11)tanθ1,2=-(m20-m02)±(m20-m02)2+4m1122m11---(12)]]>其中tanθ1,2为惯性矩最小的倾斜角的两个角度;从式(12)得到两个角θ1和θ2,对Gθ求二阶导数,两个角中二阶导数大于零的角即为惯性主轴方向,此时惯性主轴的斜率为ρ,则最终所求的惯性主轴的倾角为ρ=tanθ;角点集Q的惯性主轴方程为yi-y‾=ρ(xi-x‾)---(13)]]>获取惯性主轴之后,利用惯性角度与二极值点可获得四个直线方程y1=ρ(x‑xmax)+ymin;y2=-1ρ(x-xmax)+ymin]]>y3=ρ(x‑xmin)+ymax;y4=-1ρ(x-xmin)+yma---(14)]]>其中,右上角P1的坐标为(xmax,ymin),左下角点P3的坐标(xmin,ymax);求解方程,可得四个点的坐标分别为:(xmax,ymin)(xmin,ymax)(ρ2xmin+p(ymin-ymax)+xmaxρ2+1,ρ2ymin+p(xmax-xmin)+ymaxρ2+1)]]>(ρ2xmax+p(ymax-ymin)+xminρ2+1,ρ2ymax+p(xmin-xmax)+yminρ2+1)---(15)]]>将上述步骤得到的四极值点时的四个顶点坐标或二极值点时公式(15)中的顶点坐标,输入仿射变换算法对图像进行仿射变换,即可得到进行畸变矫正后的图像。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710717760.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top