[发明专利]一种基于仿射变换的自由场景文本检测方法有效

申请号：	201710717760.8	申请日：	2017-08-21
公开（公告）号：	CN107688806B	公开（公告）日：	2021-04-20
发明（设计）人：	刘晶;张琳;刘钰;蒋晓悦;王西坡	申请（专利权）人：	西北工业大学
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/32;G06K9/34;G06T3/00;G06T7/13
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于变换自由场景文本检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于仿射变换的自由场景文本检测方法，其特征在于包括下述步骤：

步骤1、进行文本检测，具体步骤如下：

步骤1.1、采用MSER检测候选的文本区域

采用MSER算法检测图像，得到候选文本区域I，其中MSER算法的表达式为：

q(itc)＝|Q_itc+Δ-Q_itc-Δ|/|Q_itc| (1)

其中，q(itc)是阈值为itc时区域Q_itc的变化率，Q_itc是阈值为itc时的某一连通区域，△为灰度阈值的微小变化量，Q_itc+Δ是阈值为itc+Δ的连通域，Q_itc-Δ是阈值为itc-Δ的连通域，当q(itc)为局部极小值时，Q_itc为最大稳定极值区域；

步骤1.2、基于基本几何属性删除非文本区域

通过MATLAB软件中的regionprops算子对图像进行检测，图像中每个候选文本区域I均得到一组参数值：图像的长宽比值为aspectRatio，偏心值为Eccentricity，欧拉数EulerNumber，检测区域和其最小凸多边形中的面积比例Solidity，检测区域和其最小边界矩形中的面积比例Extent，设置阈值删除非文本区域，即当图像中每个候选文本区域I的参数值不在阈值范围内时，将其判定为非文本区域；

其中阈值设置为：

aspectRatio0.3

Eccentricity0.995

Solidity0.3

Extent0.2

EulerNumber-4 (2)

将满足公式(2)条件的区域设置为文本区域I₁；

步骤1.3、采用SWT算法删除非文本区域

对文本区域I₁依次进行笔画宽度检测，即先对文本区域I₁利用canny算子进行边缘检测，得到边缘点p的梯度方向d_p，沿着p+n*d_p的方向搜索另一个边缘点q，其中，n＞0，且n＝1,2,3...，n值从取1开始，计算q点的梯度方向d_q，当d_q与d_p的方向满足d_q＝-d_p±π/6，将[p,q]连线上的每一个像素点笔画宽度值设置为如无符合d_q＝-d_p±π/6条件的q点，则放弃该搜索方向，并将n值加一，更新p+n*d_p搜索方向，沿着更新后方向继续寻找符合d_q＝-d_p±π/6方向的q点，直到检测完文本区域I₁内所有的边缘点，当某一连通区域内各像素点的笔画宽度值均不同时，则该连通区域为虚警，该区域的笔画宽度值为无穷；

将区域的笔画宽度值取值为非无穷的点进行连通区域合并，得到连通区域集合I₂，统计各连通区域的笔画宽度值，即用连通区域集合I₂内笔画宽度的众数代表该区域的笔画宽度值，得到

swt_roi＝mode(swt_p,p∈roi) (3)

式(3)中，swt_roi表示连通区域集合I₂的笔画宽度值，mode代表取众数，swt_p表示连通区域集合I₂内每个边缘点p的笔画宽度值；

求得连通区域集合I₂内全部连通区域roi的笔画宽度值后，对其是否是文字区域进行判断，得到单个文字字符构成的文字区域I₃，具体判断方法为：

计算var(swt_roi,roi∈H)，即求方差，其中H表示当前图像区域，当方差低于阈值时，则保留该区域；

所述的阈值取值范围为60—90；

步骤1.4、合并区域I₃

找到相邻文本区域，即将区域I₃通过BoundingBox函数得到每个字符的横坐标值x，纵坐标值y，长l和宽w，从而形成多个矩形BOXES，设矩形中四个顶点的坐标为(x_ip,y_ip)，且满足表达式

将矩形内每个点的灰度值设置为pg，pg值为小于255的任意值，将矩形外区域的点的灰度值设置为0，将每个矩形BOXES内外的灰度值相加，若两个BOXES存在重叠，由于每个BOXES的灰度值为pg，将重叠部分的灰度值相加后，重叠部分的灰度值则大于pg，将所有重叠部分连接得到文本区域I₄，文本区域I₄即为单词或者一行文字，同时将灰度值为pg和0的部分规定为由单个字符组成的文本区域，将由单个字符组成的文本区域删除；

步骤2、外接矩形坐标的确定与畸变矫正

每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标，找到四边形四个顶点中横坐标最小的点P₁，纵坐标最大的点P₂，横坐标最大的点P₃和纵坐标最小的点P₄，此时会出现四个极值点或两个极值点两种情况，下面将两种情况进行具体说明：

a)存在四极值点

找到四个顶点，将四个顶点连接起来，即可得到文本的外接四边形，并得知外接四边形的坐标值；

b)存在二极值点

此时横坐标的极小值和纵坐标的极大值重合为一个点，同时横坐标的极大值和纵坐标的极小值重合为另外一个点，即只得到点P₁的坐标(x_max,y_min)和点P₃的坐标(x_min,y_max)，根据两个已知顶点计算惯性主轴的具体方法如下：

惯性主轴的方向是最小惯性轴与横坐标轴的夹角，角点为图像中每个矩形BOXES的顶点，设Q为图像中角点的集合，设角点坐标为(x_i,y_i)，且i＝1，2，…，N，N为图像中所有角点的总数，角点区域的质心定义为

将质心移动至坐标原点，从而角点集Q对质心的惯性矩G_q定义为

角点集Q对过原点的直线L的惯性矩Gθ为

其中，θ为直线L的倾斜角，惯性矩G_θ最小的方向为惯性主轴的方向，即使G_θ最小的角θ，求惯性矩G_θ的导数为：

令G′_θ＝0，则

令则