[发明专利]基于深度学习的交叠文本行定位分割方法及系统有效
申请号: | 201911053860.0 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110956088B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 王勇;朱军民;康铁钢;施维 | 申请(专利权)人: | 北京易道博识科技有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/148;G06V30/162;G06V30/19;G06V10/82 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 交叠 文本 定位 分割 方法 系统 | ||
1.一种基于深度学习的交叠文本行定位分割方法,其特征在于,所述方法包括以下步骤:
步骤1,输入包含交叠文本行的原始图像,对所述原始图像进行预处理;
步骤2,对实例分割全卷积神经网络进行训练,将预处理后的原始图像输入到已训练的实例分割全卷积神经网络中,输出非交叠文本行区域特征分数图、交叠文本行区域特征分数图以及文本行区域像素之间链接信息特征分数图;
步骤3,通过连通域分析方法,基于非交叠文本行区域特征分数图、交叠文本行区域特征分数图以及文本行区域像素之间链接信息特征分数图获取非交叠文本行区域和交叠文本行区域的轮廓;
步骤4,根据非交叠文本行区域和交叠文本行区域的轮廓,合并非交叠文本行区域至交叠文本行区域;
步骤5,对合并后的文本行区域进行四边形拟合,以获取文本行区域的外接四边形,实现交叠文本行的定位分割,
其中,所述步骤3具体包括:
步骤31:针对非交叠文本行区域特征分数图设定第一阈值,针对交叠文本行区域特征分数图设定第二阈值,针对文本行区域像素之间链接信息特征分数图设定第三阈值;
步骤32:根据第一阈值对非交叠文本行区域特征分数图进行二值化处理,根据第二阈值对交叠文本行区域特征分数图进行二值化处理,根据第三阈值对文本行区域像素之间链接信息特征分数图进行二值化处理,在非交叠文本行区域特征分数图中得到非交叠文本行区域像素点和背景像素点,在交叠文本行区域特征分数图中得到交叠文本行区域像素点和背景像素点,在文本行区域像素之间链接信息特征分数图中得到链接状态信息和非链接状态信息;
步骤33:根据非交叠文本行区域像素点结合链接状态信息,得到非交叠文本行区域的像素点区域,根据交叠文本行区域像素点结合链接状态信息,得到交叠文本行区域的像素点区域,用连通域表示像素点区域的轮廓;
其中,所述步骤4具体包括:
步骤41:合并非交叠文本行区域的像素点区域和交叠文本行区域的像素点区域;
步骤42:判断相邻像素点之间的相邻信息,并结合文本行区域像素之间链接信息特征分数图,当两个像素点相邻,并且两个像素点的链接状态信息为正时,将两个像素点合并到一个连通域内;其中,两个像素点相邻是指:两个像素点在X方向像素坐标轴或Y方向像素坐标轴相差1-3个像素;
步骤43:采用基于可变距离阈值合并的策略,以端到端的检测精度为依据,采用动态搜索距离阈值的方式,在可变距离阈值测试集上获取最佳距离阈值,若两个连通域之间的距离在该最佳距离阈值范围内,则进行合并操作。
2.根据权利要求1所述的基于深度学习的交叠文本行定位分割方法,其特征在于,所述步骤1具体包括:对输入的原始图像进行边界补齐N个单位,之后进行1/M的下采样,得到预处理后的原始图像,其中,M和N均为≥1的整数,且M是N的整数倍。
3.根据权利要求1所述的基于深度学习的交叠文本行定位分割方法,其特征在于,所述步骤2具体包括:
步骤21:针对训练样本集合中每一张样本图像,通过四边形表示文本行区域的轮廓来进行标注,生成带有标注的标签文件;
步骤22:将标签文件和样本图像送入实例分割全卷积神经网络进行训练,其中,为了完成交叠文本行的监督和学习,实例分割全卷积神经网络根据标签文件中文本行区域的轮廓,自动计算出交叠文本行区域的轮廓,以此作为交叠文本行区域的监督和学习目标,并结合非交叠文本行区域的轮廓,完成训练过程,形成初步训练模型;
步骤23:针对初步训练模型,通过测试样本集合进行测试,评估非交叠文本行区域和交叠文本行区域的检测分割精度,如达到精度要求,则训练过程终止,以初步训练模型作为已训练的实例分割全卷积神经网络;如未达到精度要求,则增加训练样本量,并对实例分割全卷积神经网络的结构以及训练参数进行调整,并重复训练过程,直到得到达到精度要求的已训练的实例分割全卷积神经网络;
步骤24:将预处理后的原始图像输入到已训练的实例分割全卷积神经网络中,输出非交叠文本行区域特征分数图、交叠文本行区域特征分数图以及文本行区域像素之间链接信息特征分数图。
4.根据权利要求1所述的基于深度学习的交叠文本行定位分割方法,其特征在于,第一阈值、第二阈值以及第三阈值的取值范围均为[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911053860.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种断层圈闭含油高度地震预测方法
- 下一篇:多功能无人机教学试验箱