[发明专利]文档图表抽取方法、电子设备及计算机可读存储介质有效

申请号：	201710776354.9	申请日：	2017-08-31
公开（公告）号：	CN107688789B	公开（公告）日：	2021-05-18
发明（设计）人：	王鸿滨;王晓伟;汪伟;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	于志光;高杰
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档图表抽取方法电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文档图表抽取方法，该方法包括步骤：获取指定文档中所有文字的位置信息；针对该指定文档中的每张页面，生成一张与该指定文档页面相同大小的空白图片，然后根据该页面中所有文字的位置信息，将该页面中所有文字转换为该空白图片中的像素点，并对该空白图片进行渲染；将所述渲染后的图片中的空白区域标记为候选图表区域，并从该候选图表区域中抽取图表信息，作为该指定文档页面抽取出的图表。本发明可以提升图表抽取的效率和覆盖面。

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种文档图表抽取方法、电子设备及计算机可读存储介质。

背景技术

现有的PDF图表抽取工具及程序大多是基于PDF存储对象的，这种方式仅能抽取作为单独图片对象存储的图表，而在一个PDF文档中，含有较多的图表信息(如Office图表等)，这些图表都能直观地表达出文档中的部分信息。然而，现有的PDF图表抽取工具及程序对于Office图表等由多个部分组成的图表则无法正确抽取。故，现有技术中的文档图表抽取方法设计不够合理，亟需改进。

发明内容

有鉴于此，本发明提出一种文档图表抽取方法、电子设备及计算机可读存储介质，通过页面渲染方式从PDF文档中抽取图表，提升了图表抽取的效率和覆盖面。

首先，为实现上述目的，本发明提出一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的文档图表抽取系统，所述文档图表抽取系统被所述处理器执行时实现如下步骤：

获取指定文档中所有文字的位置信息；

针对该指定文档中的每张页面，生成一张与该指定文档页面相同大小的空白图片，然后根据该页面中所有文字的位置信息，将该页面中所有文字转换为该空白图片中的像素点，并对该空白图片进行渲染；及

将所述渲染后的图片中的空白区域标记为候选图表区域，并从该候选图表区域中抽取图表信息，作为该指定文档页面抽取出的图表。

优选地，所述对该空白图片进行渲染包括：针对该空白图片中的所有像素点位置，将有文字占据的像素点位置渲染为黑色，没有文字占据的像素点位置保持白色。

优选地，所述文档图表抽取系统被所述处理器执行时还实现如下步骤：

通过图像形态学处理方法对所述渲染后的图片进行处理，将所述渲染后的图片中的文字信息界限显著化。

优选地，所述从该候选图表区域中抽取图表信息包括：

将所述标记的候选图表区域转换为图片，并通过像素分布分析，对转换后的图片进行筛选，选择出包含图表信息的图片，作为该指定文档页面抽取出的图表。

优选地，所述通过像素分布分析对转换后的图片进行筛选包括：