[发明专利]一种表格数据提取方法及装置有效

专利信息
申请号: 202010336373.1 申请日: 2020-04-26
公开(公告)号: CN111259873B 公开(公告)日: 2021-02-26
发明(设计)人: 宋永生;王楠;徐杰 申请(专利权)人: 江苏联著实业股份有限公司
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 连云港联创专利代理事务所(特殊普通合伙) 32330 代理人: 赵晓琴
地址: 210006 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 表格 数据 提取 方法 装置
【说明书】:

发明公开了一种表格数据提取方法及装置,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。达到提高表格数据提取准确度的技术效果。

技术领域

本申请涉及文档解析处理技术领域,尤其涉及一种表格数据提取方法及装置。

背景技术

办公自动化在日常工作学习中非常普及并且非常重要,文字编辑、电子表格等都非常常见。

表格作为电子文档内容的重要组成部分,在实际运用中被重复使用和再编辑的频率非常高。同时,随着表格样式的复杂化,越来越多的文档中出现了包含合并单元格的复杂表格,

但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:

现有技术中无法从文档中准确提取表格及表格中数据的技术问题。

发明内容

本申请实施例通过提供一种表格数据提取方法及装置,用以解决现有技术中无法从文档中准确提取表格及表格中数据的技术问题。

为了解决上述问题,第一方面,本申请实施例提供了一种表格数据提取方法,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。

优选的,所述根据所述第二图像信息,获得所述第二图像信息中单元格信息,包括:获得所述第二图像信息中独立的矩形区域信息;根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;根据所述线段交点坐标,获得单元格四角坐标和边框信息;根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。

优选的,在所述获得所述第二图像信息中独立的矩形区域信息之前,包括:获得矩形完整性标准;判断所述第二图像信息是否满足所述矩形完整性标准;如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。

优选的,在所述将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息之前,包括:判断所述文字坐标是否在所述单元格四角坐标范围内;如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。

优选的,在所述按行列两个方向对所述第二图像信息中单元格信息进行分组之前,包括:判断所述单元格信息是否为合并单元格;如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。

第二方面,本申请实施例还提供了一种表格数据提取装置,其特征在于,所述装置包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏联著实业股份有限公司,未经江苏联著实业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010336373.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top