[发明专利]一种基于仿射变换的自由场景文本检测方法有效
申请号: | 201710717760.8 | 申请日: | 2017-08-21 |
公开(公告)号: | CN107688806B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 刘晶;张琳;刘钰;蒋晓悦;王西坡 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/34;G06T3/00;G06T7/13 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 变换 自由 场景 文本 检测 方法 | ||
1.一种基于仿射变换的自由场景文本检测方法,其特征在于包括下述步骤:
步骤1、进行文本检测,具体步骤如下:
步骤1.1、采用MSER检测候选的文本区域
采用MSER算法检测图像,得到候选文本区域I,其中MSER算法的表达式为:
q(itc)=|Qitc+Δ-Qitc-Δ|/|Qitc| (1)
其中,q(itc)是阈值为itc时区域Qitc的变化率,Qitc是阈值为itc时的某一连通区域,△为灰度阈值的微小变化量,Qitc+Δ是阈值为itc+Δ的连通域,Qitc-Δ是阈值为itc-Δ的连通域,当q(itc)为局部极小值时,Qitc为最大稳定极值区域;
步骤1.2、基于基本几何属性删除非文本区域
通过MATLAB软件中的regionprops算子对图像进行检测,图像中每个候选文本区域I均得到一组参数值:图像的长宽比值为aspectRatio,偏心值为Eccentricity,欧拉数EulerNumber,检测区域和其最小凸多边形中的面积比例Solidity,检测区域和其最小边界矩形中的面积比例Extent,设置阈值删除非文本区域,即当图像中每个候选文本区域I的参数值不在阈值范围内时,将其判定为非文本区域;
其中阈值设置为:
aspectRatio0.3
Eccentricity0.995
Solidity0.3
Extent0.2
EulerNumber-4 (2)
将满足公式(2)条件的区域设置为文本区域I1;
步骤1.3、采用SWT算法删除非文本区域
对文本区域I1依次进行笔画宽度检测,即先对文本区域I1利用canny算子进行边缘检测,得到边缘点p的梯度方向dp,沿着p+n*dp的方向搜索另一个边缘点q,其中,n>0,且n=1,2,3...,n值从取1开始,计算q点的梯度方向dq,当dq与dp的方向满足dq=-dp±π/6,将[p,q]连线上的每一个像素点笔画宽度值设置为如无符合dq=-dp±π/6条件的q点,则放弃该搜索方向,并将n值加一,更新p+n*dp搜索方向,沿着更新后方向继续寻找符合dq=-dp±π/6方向的q点,直到检测完文本区域I1内所有的边缘点,当某一连通区域内各像素点的笔画宽度值均不同时,则该连通区域为虚警,该区域的笔画宽度值为无穷;
将区域的笔画宽度值取值为非无穷的点进行连通区域合并,得到连通区域集合I2,统计各连通区域的笔画宽度值,即用连通区域集合I2内笔画宽度的众数代表该区域的笔画宽度值,得到
swtroi=mode(swtp,p∈roi) (3)
式(3)中,swtroi表示连通区域集合I2的笔画宽度值,mode代表取众数,swtp表示连通区域集合I2内每个边缘点p的笔画宽度值;
求得连通区域集合I2内全部连通区域roi的笔画宽度值后,对其是否是文字区域进行判断,得到单个文字字符构成的文字区域I3,具体判断方法为:
计算var(swtroi,roi∈H),即求方差,其中H表示当前图像区域,当方差低于阈值时,则保留该区域;
所述的阈值取值范围为60—90;
步骤1.4、合并区域I3
找到相邻文本区域,即将区域I3通过BoundingBox函数得到每个字符的横坐标值x,纵坐标值y,长l和宽w,从而形成多个矩形BOXES,设矩形中四个顶点的坐标为(xip,yip),且满足表达式
将矩形内每个点的灰度值设置为pg,pg值为小于255的任意值,将矩形外区域的点的灰度值设置为0,将每个矩形BOXES内外的灰度值相加,若两个BOXES存在重叠,由于每个BOXES的灰度值为pg,将重叠部分的灰度值相加后,重叠部分的灰度值则大于pg,将所有重叠部分连接得到文本区域I4,文本区域I4即为单词或者一行文字,同时将灰度值为pg和0的部分规定为由单个字符组成的文本区域,将由单个字符组成的文本区域删除;
步骤2、外接矩形坐标的确定与畸变矫正
每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标,找到四边形四个顶点中横坐标最小的点P1,纵坐标最大的点P2,横坐标最大的点P3和纵坐标最小的点P4,此时会出现四个极值点或两个极值点两种情况,下面将两种情况进行具体说明:
a)存在四极值点
找到四个顶点,将四个顶点连接起来,即可得到文本的外接四边形,并得知外接四边形的坐标值;
b)存在二极值点
此时横坐标的极小值和纵坐标的极大值重合为一个点,同时横坐标的极大值和纵坐标的极小值重合为另外一个点,即只得到点P1的坐标(xmax,ymin)和点P3的坐标(xmin,ymax),根据两个已知顶点计算惯性主轴的具体方法如下:
惯性主轴的方向是最小惯性轴与横坐标轴的夹角,角点为图像中每个矩形BOXES的顶点,设Q为图像中角点的集合,设角点坐标为(xi,yi),且i=1,2,…,N,N为图像中所有角点的总数,角点区域的质心定义为
将质心移动至坐标原点,从而角点集Q对质心的惯性矩Gq定义为
角点集Q对过原点的直线L的惯性矩Gθ为
其中,θ为直线L的倾斜角,惯性矩Gθ最小的方向为惯性主轴的方向,即使Gθ最小的角θ,求惯性矩Gθ的导数为:
令G′θ=0,则
令则
由于带入公式(7)中可得
m11tan2θ+(m20-m02)tanθ-m11=0 (11)
其中tanθ1,2为惯性矩最小的倾斜角的两个角度;
从式(12)得到两个角θ1和θ2,对Gθ求二阶导数,两个角中二阶导数大于零的角即为惯性主轴方向,此时惯性主轴的斜率为ρ,则最终所求的惯性主轴的倾角为ρ=tanθ;
角点集Q的惯性主轴方程为
获取惯性主轴之后,利用惯性角度与二极值点可获得四个直线方程
y1=ρ(x-xmax)+ymin;
y3=ρ(x-xmin)+ymax;
其中,右上角P1的坐标为(xmax,ymin),左下角点P3的坐标(xmin,ymax);
求解方程,可得四个点的坐标分别为:
(xmax,ymin)
(xmin,ymax)
将上述步骤得到的四极值点时的四个顶点坐标或二极值点时公式(15)中的顶点坐标,输入仿射变换算法对图像进行仿射变换,即可得到进行畸变矫正后的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710717760.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种伺服端盖压机
- 下一篇:用于换挡器壳体和齿形板组装的组装装置