[发明专利]图表数据结构化提取方法、电子设备及计算机可读存储介质有效

申请号：	201710775380.X	申请日：	2017-08-31
公开（公告）号：	CN107689070B	公开（公告）日：	2021-06-04
发明（设计）人：	王鸿滨;汪伟;王晓伟;王智;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06T11/60	分类号：	G06T11/60;G06F40/166
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	于志光;高杰
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图表数据结构提取方法电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种图表数据结构化提取方法，该方法包括步骤：获取指定文档中的图表及每张图表的位置信息；根据每张图表的位置信息，提取每张图表的标题和上下文文字信息；根据上下文文字的位置信息，对每张图表的上下文文字进行拼接，并将拼接后的上下文文字与每张图表的标题及图表本身关联在一起，形成结构化的图表数据。本发明可以提高图表数据提取的完整度。

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种图表数据结构化提取方法、电子设备及计算机可读存储介质。

背景技术

现有针对PDF文档的信息提取大多仅限于文字信息，而对于图表信息，也仅是提取出单独的图表，没有对图表的相关信息也进行统一抽取。单独的图表在脱离了其特定语义环境后可能会给人一种不知所云的感觉，这一点非常不利于对图表信息的进一步分析与利用。故，现有技术中的图表数据提取方法设计不够合理，亟需改进。

发明内容

有鉴于此，本发明提出一种图表数据结构化提取方法、电子设备及计算机可读存储介质，通过结构化地提取包括图表本身、图表标题及其上下文文字信息的图表数据，形成对图表信息的完整表达，便于其它应用接口后续对图表信息进行进一步地分析与利用。

首先，为实现上述目的，本发明提出一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图表数据结构化提取系统，所述图表数据结构化提取系统被所述处理器执行时实现如下步骤：

获取指定文档中的图表及每张图表的位置信息；

根据每张图表的位置信息，提取每张图表的标题和上下文文字信息；及

根据上下文文字的位置信息，对每张图表的上下文文字进行拼接，并将拼接后的上下文文字与每张图表的标题及图表本身关联在一起，形成结构化的图表数据。

优选地，所述提取每张图表的标题和上下文文字信息包括：

确定每张图表的一个相邻区域；