[发明专利]基于深度学习网络的文档行分割和分类的方法及系统在审
申请号: | 202110790181.2 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113642401A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 汪昕;郭骏;闫科萍;潘正颐;侯大为 | 申请(专利权)人: | 常州微亿智造科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 213000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 网络 文档 分割 分类 方法 系统 | ||
本发明提供了一种基于深度学习网络的文档行分割和分类的方法及系统,包括:步骤M1:建立能够对文本进行行分割的深度学习网络模型;步骤M2:利用合成文本图片训练深度学习网络模型,得到训练后的深度学习网络模型;步骤S3:利用训练后的深度学习网络模型对文档进行行分割和分类。本发明结合样本先验概率通过A‑Res算法生成合成文本,让深度学习网络模型在合成文本上完成训练,比直方图法具备更好的行分割效果;与标注数据完成深度模型训练相比人力成本更低。
技术领域
本发明涉及深度学习--计算机视觉技术领域,具体地,涉及基于深度学习网络的文档行分割和分类的方法及系统,更为具体地,涉及一种用于文档的行分割和分类的深度学习网络。
背景技术
文档行检测是OCR领域的一个重要子方向,其任务是定位文本行的上下边界并标注其类别。和通用的目标检测任务不同,其输入数据存在明显的规律性。一套完整的算法应用流程一般包括:采集文档图片、标注图片、训练模型、部署模型。
在当前的文档行检测领域,为了获得较高的行分割精度,通常需要采用庞大的神经网络结构,其瓶颈在于大量的参数需要用到海量的标注样本参与训练来拟合;此外,由于训练集始终是真实样本的子集,因此根据机器学习的独立同分布假设,为了使模型泛化到未经标注的新样本中,往往需要再次投入人力去标注数据。
专利文献CN112257586A(申请号:202011135858.0)公开了一种目标检测中的真值框选择方法、装置、存储介质及设备,属于图像处理技术领域。所述方法包括:获取对图像进行特征提取后得到的目标特征图,目标特征图中包含多个预定大小的网格;在目标特征图中获取图像中的每个小目标对象对应的多个检测框;对于每个检测框,计算预定点位于检测框内的网格的中心度得分,预定点为网格的角点和/或中心点;对于每个小目标对象,从小目标对象对应的多个检测框中,将最大的中心度得分对应的检测框确定为小目标对象的真值框。相比较该专利,本发明的应用对象是文档的行分割和分类,文档的行分割和分类特殊性在于行分割只考虑竖直方向上的分割位置,该特殊性导致应用对象是目标检测框方案无法转用至本发明,因为目标检测框的方案同时考虑了水平和竖直两个方向的分割位置,而本发明针对文档的行分割和分类的特殊性,专门作出了如下设计:去掉根号开方,并将水平方向的结果置为1,确保中心度的计算不受不同任务的影响。
传统的建模思路一般有两种,两段式和一段式。两段式指的是先用水平投影直方图的算法完成文本行分割,再利用统计模型或深度模型来完成文本行分类,这种方法的缺点是水平投影直方图的效果容易受到噪音的干扰,结果不鲁棒;一段式的方法则是对整张图完成标注之后,使用统一的深度模型来完成一张图片上不同文本行的分割和分类,经典的方法包括Faster R-CNN、R-FCN、YOLO以及FCOS,这种方法的缺点是由于网络结构过于复杂,因此需要大量的训练数据,耗费大量人力。
对于文档行分割与分类任务,传统的两段式建模是将其拆分为两个子任务。利用传统的水平投影直方图算法完成行分割,然后使用机器学习的方法完成行分类,其缺点在于水平投影直方图算法容易受到噪音的干扰,产生置信度很低的结果。图1是水平投影直方图算法在行分割任务上的可视化结果。
传统的一段式建模是完全采用深度模型训练,端到端建模,一般的流程为:搜集数据、标注数据、模型训练、模型预测。然而深度模型包含大量待拟合的参数,因此需要标注大量的数据,而纯人力标注数据的成本是非常大的。此外,机器学习要求数据是独立同分布的,这就意味着,需要标注各种分布的数据才能满足泛化需求,这也再次加重了人力标注的成本。
在这里,我们需要解决的问题是如何既保证模型预测的准确性,同时又尽量减少标注成本。本发明采用的方法是使用合成文本当作训练集,将问题转化为如何保证在合成文本上训练出来的模型的泛化性能,下文会介绍具体的解决方案。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度学习网络的文档行分割和分类的方法及系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州微亿智造科技有限公司,未经常州微亿智造科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110790181.2/2.html,转载请声明来源钻瓜专利网。