[发明专利]一种表格数据提取方法及装置有效
申请号: | 202010336373.1 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111259873B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 宋永生;王楠;徐杰 | 申请(专利权)人: | 江苏联著实业股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 连云港联创专利代理事务所(特殊普通合伙) 32330 | 代理人: | 赵晓琴 |
地址: | 210006 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 数据 提取 方法 装置 | ||
本发明公开了一种表格数据提取方法及装置,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。达到提高表格数据提取准确度的技术效果。
技术领域
本申请涉及文档解析处理技术领域,尤其涉及一种表格数据提取方法及装置。
背景技术
办公自动化在日常工作学习中非常普及并且非常重要,文字编辑、电子表格等都非常常见。
表格作为电子文档内容的重要组成部分,在实际运用中被重复使用和再编辑的频率非常高。同时,随着表格样式的复杂化,越来越多的文档中出现了包含合并单元格的复杂表格,
但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
现有技术中无法从文档中准确提取表格及表格中数据的技术问题。
发明内容
本申请实施例通过提供一种表格数据提取方法及装置,用以解决现有技术中无法从文档中准确提取表格及表格中数据的技术问题。
为了解决上述问题,第一方面,本申请实施例提供了一种表格数据提取方法,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
优选的,所述根据所述第二图像信息,获得所述第二图像信息中单元格信息,包括:获得所述第二图像信息中独立的矩形区域信息;根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;根据所述线段交点坐标,获得单元格四角坐标和边框信息;根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。
优选的,在所述获得所述第二图像信息中独立的矩形区域信息之前,包括:获得矩形完整性标准;判断所述第二图像信息是否满足所述矩形完整性标准;如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。
优选的,在所述将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息之前,包括:判断所述文字坐标是否在所述单元格四角坐标范围内;如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。
优选的,在所述按行列两个方向对所述第二图像信息中单元格信息进行分组之前,包括:判断所述单元格信息是否为合并单元格;如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。
第二方面,本申请实施例还提供了一种表格数据提取装置,其特征在于,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏联著实业股份有限公司,未经江苏联著实业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010336373.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:聚合物多元醇的制备方法
- 下一篇:一种电梯按需维保智能管理系统及其管理方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置