[发明专利]基于多尺度训练和级联检测的文档版面分析方法和系统有效
申请号: | 202110701808.2 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113420669B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 唐佳珊;鲁统伟;贾世海;张浩 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V10/762;G06V10/25;G06V10/44;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 训练 级联 检测 文档 版面 分析 方法 系统 | ||
1.基于多尺度训练和级联检测的文档版面分析方法,其特征在于:包括以下步骤:
S0:搭建基于多尺度训练和级联检测的文档版面分析系统,包括依次连接的多尺度训练模块、特征融合模块、级联目标检测模块;
特征融合模块包括依次连接的Resnet50卷积网络和FPN网络;
级联目标检测模块包括依次连接的RPN区域提交网络、区域特征聚集RoIAlign层、全连接层,以及级联的检测模块Hn,前一级检测模块的输出端连接后一级检测模块的输入端;
还包括与级联的检测模块Hn并行的掩膜分割模块,掩膜分割模块包括各级分割模块Mn,分割模块Mn的输入端连接对应的检测模块Hn的输出端;
S1:将文档图像输入多尺度训练模块随机缩放为宽为预设范围内整数、高度不变的图像;
S2:将缩放后的图像输入预训练好的Resnet50卷积网络进行特征提取,然后输入FPN网络构造特征金字塔进行从上到下和从下至上的多尺度特征融合,得到具有更强语义信息的特征图;
S3:根据文本类别、不同区域的高宽比和大小设置用于分析文档图像的类别的预设框,并采用k-means聚类方法通过多轮迭代得到的相关度IoU值选取预设框;所述的步骤S3中,具体步骤为:
S31:随机选取K个Bbox作为初始的预设框;
S32:设预设框的左上角的顶点为(x1,y1),右下角的顶点为(x2,y2);
S33:使用文档图像的宽wimg和高himg分别对Bbox的宽wbox和高hbox做归一化得到预设框的宽w和高h:
S34:计算预设框anchor box与Bbox的相关度IoU:
相关度IoU的值越大表示预设框anchor box与Bbox的相关度越好,设距离参数d表示相关度IoU的误差:
d=1-IoU;
S35:根据步骤S34得到每个Bbox对每个预设框anchor box的误差为d(n,k),将Bbox分类给误差集合{d(i,1),d(i,2),…,d(i,k)}中误差最小的预设框anchor box;对每个Bbox重复执行本步骤,记录分类到每个预设框anchor box的Bbox;
S36:更新预设框anchor box,将Bbox的宽和高的中值分别作为所属的预设框anchorbox的宽和高;
S37:重复操作步骤S34到S36,直到所有Bbox的分类不再更新;
S38:使用最后得到的预设框anchor box与每个Bbox计算相关度IoU值,对每个Bbox选取最高的相关度IoU值,求所有Bbox的IoU值的平均值,得到预设框anchor box的精确度;
S4:将步骤S2得到的特征图输入RPN区域提交网络,统计用于定位文档图像的目标的目标框,结合预设框经过后处理得到文档区域的候选框,并针对文档图像的原图计算候选框的偏移值;
S5:在多个级联的检测模块中分别将步骤S4得到的文档区域的候选框基于多个不同相关度IoU值进行正负样本训练;采取逐级训练模式,将前一级检测模块输出的Bbox作为后一级检测模块的输入,且后级检测模块界定正负样本的相关度IoU值不断上升;
S6:将级联目标检测模块输出的文档区域类别分数取平均值得到最终类别分数,将最后一级检测模块输出最优结果作为最终结果,输出Bbox的目标分类和文档图像上每个区域的目标预测分割掩模mask,完成对文档图像的版面分析。
2.根据权利要求1所述的基于多尺度训练和级联检测的文档版面分析方法,其特征在于:所述的步骤S1中,具体步骤为:将输入的文档图像缩放到宽为500~1000的缩放尺度中任意整数像素、高为1000像素的图像,在模型的每个训练轮次epoch中随机选择一个缩放尺度进行训练;
采用2017ICDAR数据集作为输入的文档图像,2017ICDAR数据集包括训练集和测试集,测试集包括查询集和图库集;从2017ICDAR数据集中抽取2010张图像用于训练,抽取402张图像用于测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110701808.2/1.html,转载请声明来源钻瓜专利网。