[发明专利]一种图表文档面板分析理解方法在审
申请号: | 202111038235.6 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113723328A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 张河锁;金连文;马伟洪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/62;G06T7/11 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 李娜 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图表 文档 面板 分析 理解 方法 | ||
本发明公开一种图表文档面板分析理解方法,包括:采集初始图表文档,对初始图表文档进行分析,获得图表分析数据集;构建关键点分割模型,基于图表分析数据集和关键点分割模型获得刻度点的位置坐标;构建多目标检测模型,基于多目标检测模型进行图例位置检测,获得图例位置;基于矩形拓展的刻度点与刻度值匹配规则和最大交并比的图例与标签匹配规则对刻度点的位置坐标和图例位置进行分析,获得图表文档面板的分析结果。本发明提出的方法高效精准地解决了图表文档的面板理解问题,对实现机器对图表文档的自动化数据提取和内容理解具有重要的积极作用。
技术领域
本发明涉及图像精确定位和元素匹配技术领域,特别是涉及一种图表文档面板分析理解方法。
背景技术
图表作为一种包含丰富语义信息的特殊类型文档,可以以一种更加直观的格式展示数据,通常用来总结实验结果或结论。普通文档的分析与识别(DAR)任务已经被研究了几十年,但图表文档分析与识别(CHART-DAR)仍然是一个亟需解决的问题。因为图表有其自身的特点,比如多样性、格式不确定性和语义性,使得CHART-DAR任务与其他文档分析任务有很大的不同和难点。图表文档的分析理解涉及多个子任务,其中一个基本和重要的问题就是如何对图表的基本物理结构进行理解,包括对图表中的图例、坐标轴等的分析理解。
现有的一些有关图表文献的方法,主要把这个问题建模为问题-答案模型,但在某些情况下,我们想从图表中获取的信息是不确定的,问题-答案模型不能满足我们的需求。一个更常见的任务是图表重建,也即是从图表中提取数据。但由于图表的类型众多,每种类型的差异巨大,同时不同人制作的图表的格式又有一定的自由性,所以目前缺少一种针对通用图表文档的分析方法。近年来,随着深度神经网络的发展,开始有相关基于深度学习的方法关注到图表文档分析问题,但现有的工作倾向于解决任何特定类型的图表的问题,如散点图、条形图或饼状图,而且所提出的方法不适用于一些比较复杂的图表。一般地,图表分析问题由于其复杂性,会划分为若干个子任务,对图表面板的分析也成为一个很重要的基本任务。
因此,亟需一种图表文档面板分析理解方法,对图表文档的面板进行分析理解,以达到对图表基本面板结构掌握的目的,有利于下游任务对图表内容的语义化理解。
发明内容
本发明的目的是提供一种图表文档面板分析理解方法,以解决上述现有技术存在的问题,使机器能够自动化理解图表文档的面板物理结构。
为实现上述目的,本发明提供了如下方案:本发明提供一种图表文档面板分析理解方法,包括如下内容:
采集初始图表文档,对所述初始图表文档进行分析,获得图表分析数据集;
构建关键点分割模型,基于所述图表分析数据集和所述关键点分割模型获得刻度点的位置坐标;
构建多目标检测模型,基于所述多目标检测模型进行图例位置检测,获得图例位置;
基于矩形拓展的刻度点与刻度值匹配规则和最大交并比的图例与标签匹配规则对所述刻度点的位置坐标和所述图例位置进行分析,获得图表文档面板的分析结果。
优选地,基于所述图表分析数据集和所述关键点分割模型获得刻度点的位置坐标还包括,以所述图表分析数据集标注的刻度点的坐标位置为中心,通过高斯核生成高斯热图,基于所述高斯热图的关键点分割模型定位图表坐标轴上的刻度点。
优选地,基于所述高斯热图的关键点分割模型定位图表坐标轴上的刻度点包括,将所述高斯热图作为所述关键点分割模型的监督信息,基于全卷积分割网络,获得概率值预测图;基于所述高斯热图,计算交叉熵损失,获得高斯预测热图;根据所述高斯预测热图和概率阈值,通过所述概率值预测图,获得所述刻度点的位置坐标。
优选地,所述多目标检测模型基于图例、图例-标签对、主体绘图区域构建;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111038235.6/2.html,转载请声明来源钻瓜专利网。