[发明专利]一种任意形状的文本检测和矫正方法有效
申请号: | 202011032904.4 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112183322B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数之联科技股份有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V10/22;G06V30/148;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 李朝虎 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任意 形状 文本 检测 矫正 方法 | ||
1.一种任意形状的文本检测和矫正方法,其特征在于,该方法包括以下步骤:
S1:对文本图片样本数据集进行数据标注,构建基于训练标签的神经网络文本检测模型,并训练文本检测模型;
S2:利用步骤S1训练好的基于训练标签的神经网络文本检测模型检测待检测文本图片中每个文本行的核心区域和边界区域,通过对核心区域和边界区域计算,得到二值化且更新后的核心区域;
S3:根据步骤S2得到的二值化且更新后的核心区域,从中筛选得分较高的核心区域,并对其进行扩张,得到文本区域;
S4:确定步骤S3得到的文本区域的上边界点和下边界点;
S5:对步骤S4中文本区域的上边界点和下边界点分别拟合贝塞尔曲线控制点,计算得到每个文本行的上下两条贝塞尔曲线;
S6:矫正每个文本行的两条贝塞尔曲线围成的任意形状文本为矩形文本,得到整个待检测文本矫正后的图片;
步骤S2包括以下子步骤:
S21:对待检测文本的原始图片构建FPN多层卷积网络,通过FPN多层卷积网络,得到多层特征图;
S22:对步骤S21得到的多层特征图进行扩张及特征拼接,得到融合后特征图;
S23:对步骤S22融合后特征图,通过不同的卷积层,分别得到核心区域的分割图和边界区域分割图;其中,核心区域的分割图上任意一点的值为ai,j,其中i表示行,j表示列;边界区域分割图上任意一点的值为bi,j,其中i表示行,j表示列;
S24:对核心区域和边界区域进行计算得到二值化的核心区域,其特征图上任意一点的值为Ti,j,其中i表示行,j表示列,计算方式为:Ti,j=ai,j-bi,j;
步骤S3包括以下子步骤:
S31:对步骤S2得到的二值化且更新后的核心区域,通过调整阈值k来过滤得分较低的特征点,即过滤掉Ti,jk的特征点,保留Ti,j≥k的特征点;其中k大于0.5;
S32:计算包含待检测文本的特征点组合而成的连通域,一个连通域对应一个实例;
S33:扩张连通域,扩张比例为1/α,从而得到多边形的文本区域;其中α1。
2.根据权利要求1所述的一种任意形状的文本检测和矫正方法,其特征在于,步骤S1中采用标签内缩的实例分割方法,步骤S1包括以下子步骤:
S11:对文本图片样本数据集进行数据标注,标注每个文本行的文本区域,通过第一边框制作每个文本行的文本区域标签;
S12:通过收扩比例α向每个文本行的文本区域内收缩得到每行文本行的文本核心区域,通过第二边框制作核心区域标签,其中α1;
S13:通过收扩比例α向每个文本行的文本区域外扩张得到最外层边界,最外层边界形成第三边框;通过第二边框和第三边框围成区域制作边界区域标签,其中α1;
S14:以此训练基于训练标签的神经网络文本检测模型。
3.根据权利要求1所述的一种任意形状的文本检测和矫正方法,其特征在于,步骤S4包括以下子步骤:
S41:在待检测文本扫描方向上寻找到文本区域每个文本行的上边界与下边界距离局部最大点的连线AB;
S42:连接局部最大点的连线的中心线HH*;
S43:将连线AB旋转到与中心线垂直,得到连线A*B*;
S44:连线A*B*与上边界、下边界的交点记作定位点p,将文本行最外端的两个定位点向外移动,成为两边定位点。
4.根据权利要求1所述的一种任意形状的文本检测和矫正方法,其特征在于,步骤S5中的贝塞尔曲线计算公式如下:
其中c(t)为贝塞尔曲线上的任意点,0≤t≤1,t的值为b0点到任意点c(t)的距离与贝塞尔曲线长度之比,b为贝塞尔曲线控制点,p为文本实例上的部分点;(bx,by)为贝塞尔曲线4个控制点坐标,(px,py)为文本实例上的点的坐标。
5.根据权利要求4所述的一种任意形状的文本检测和矫正方法,其特征在于,步骤S6中矫正任意形状文本为矩形文本的详细步骤如下:
S61:对于任意形状文本的识别窗口中的任一格点k,先计算出其到窗口左侧的距离与整个窗口宽度的比例t;
S62:对于原目标框,找出其上、下边贝塞尔曲线参数方程对应参数值为t的位置,即tp与bp;
S63:计算识别窗口中格点到窗口底部的距离与整个窗口高度的比例gih/hout;
S64:按照步骤S63的比例对从bp到tp的线段进行分割,得到最终对应点k*,得到对应点后通过二维插值求解该处的特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数之联科技股份有限公司,未经成都数之联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011032904.4/1.html,转载请声明来源钻瓜专利网。