[发明专利]一种基于几何特征的文本检测后处理方法有效
申请号: | 202010692672.9 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111832497B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 邱小刚;赵富佳;林小渝;陈善雄;李然康;王定旺 | 申请(专利权)人: | 西南大学 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/774;G06V30/414;G06K9/62;G06T7/11;G06T7/136;G06T7/194 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 曹玉琳 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 几何 特征 文本 检测 处理 方法 | ||
1.一种基于几何特征的文本检测后处理方法,所述后处理方法用于对原始预测框进行后处理,所述原始预测框通过深度学习文本检测方法得到,其特征在于,所述后处理方法包括如下步骤:
S1、基于背景去除算法,在不改变预测框与字符区域交集面积的情况下将预测框中的多余背景进行去除,背景去除算法是通过像素阈值对字符区域与背景区域进行分离,根据阈值确定字符区域,进而更新预测框坐标;
S2、基于候选框扩张算法,将得到的预测框进行一定规律的扩张,使它能够完全的提取出字符区域,候选框扩张算法是通过像素阈值判断边缘像素中是否有属于字符区域的像素,根据阈值确定字符区域像素范围后,若字符边缘像素中有小于阈值的像素,则判断属于字符区域像素,对边缘进行扩张,进而更新预测框坐标;
S3、基于不标准框去除算法,对不标准的预测框进行去除,不标准框去除算法是通过设定的坐标面积阈值以及计算出来的每一个预测框坐标面积判断预测框是否属于标准框,若满足条件,即预测框坐标面积小于最大面积阈值同时大于最小面积阈值,则判断此坐标属于标准框,反之则不属于,进而更新预测框坐标;
S4、基于重复框去除算法,将得到的重复预测框进行去除,得到最终的预测框,重复框去除算法是通过新建一个空集合,通过判断空集合中是否存在经过不标准框去除算法更新后的预测框坐标集合中的坐标决定是否将经过不标准框去除算法更新后的预测框坐标集合保存到该新建的空集合中,进而更新预测框坐标;
其中,重复框去除算法过程是:
首先新建一个空集合G3;
然后依次取出经过不标准框去除算法更新后的预测框坐标集合G2中的预测框坐标,并判断每一个坐标是否存在集合G3中,若没有在集合G3中,则将这个坐标保存到G3中,如果预测框坐标已经在集合G3中,则取出G2中的下一个预测框坐标进行判断;
最后得到新的集合G3就是经过重复框去除算法更新后的最终预测框坐标集合;
步骤S1中,背景去除使用的像素阈值基于自适应阈值算法计算,计算公式如下:
V=(1-α)×MAX_10+α×MIN_10 (1)
其中,α表示权重系数,MIN_10表示原始检测区域中灰度值最小的10个像素点的平均值,MAX_10表示原始检测区域中灰度值最大的10个像素点的平均值,V表示自适应阈值;
权重系数α的取值范围为0.3-0.7;
步骤S1中,背景去除算法的过程是:
首先根据得到的原始预测框坐标和待检测图像提取出预测框区域图像;
其次根据像素阈值确定字符区域,若小于像素阈值,则判断像素属于字符区域像素,大于像素阈值,则判断属于背景区域;
具体的,设原始预测框坐标为u((X1,Y1),(X2,Y2)),待检测图像为Image,Bd_img为Image灰度化后的数组,Img为根据u和Bd_img提取出的预测框区域,row_min,row_max,col_min,col_max分别表示真实字符区域在Img的行最小索引,行最大索引,列最小索引,列最大索引,基于Getchar()函数判断字符区域像素和T的关系,T为像素阈值,更新预测框坐标公式如下:
步骤S2中,候选框扩张算法过程是:
首先根据经过背景去除算法更新后的预测框坐标和待检测图像提取出坐标区域上下左右四个边的灰度值并分别存储于数组E1,E2,E3,E4中;
然后根据像素阈值确定字符区域像素范围,判断每个数组中是否有属于像素阈值的元素,若有,则说明这个元素属于字符区域像素更新坐标值,即这个元素所在的边在字符区域内,所以要对这个边进行扩张,最后更新预测框坐标;
具体的,经过背景去除处理后得到的预测框坐标为u1((X1,Y1),(X2,Y2)),E1,E2,E3,E4分别表示字符检测区域上下左右四个边缘的灰度值,基于Getchar()函数判断字符区域像素和T的关系,T为像素阈值,更新预测框坐标公式如下:
步骤S3中,不标准框去除算法的过程是:
首先对经过候选框扩张算法更新后的预测框坐标集合G1按照从上到下,从左到右进行排序,得到一个有序的坐标集合;
其次取出第一个坐标并计算坐标的同一行周围多个预测框坐标面积的平均值;
然后设置最小面积阈值和最大面积阈值并新建一个空集合G2,
最后根据两个阈值来判断坐标的面积是否在最小阈值和最大阈值之间,若在两个阈值之间,则将坐标存放到新的集合G2中,最终得到的集合G2就是经过不标准框去除算法更新后的预测框坐标集合。
2.根据权利要求1所述的基于几何特征的文本检测后处理方法,其特征在于,最大阈值与最小阈值分别设为平均值的1.4倍和0.5倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010692672.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种断电测试方法、装置及设备
- 下一篇:基于卷积神经网络的漫画人脸识别方法