[发明专利]一种表格识别方法及装置有效
申请号: | 202210018252.1 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114359938B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 张文强;黄灿 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V20/62;G06V30/10;G06V10/44;G06V10/764;G06V10/82;G06V30/262;G06N3/0464;G06N3/08 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 储倩 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 识别 方法 装置 | ||
本申请公开了一种表格识别方法,可以获取包括表格的待处理图像,并确定所述待处理图像中各个单元格的信息,所述各个单元格的信息,包括所述各个单元格的包围框的位置。而后,根据所述各个单元格的信息,得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。进一步地,可以根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系,得到所述各个单元格的结构坐标,其中,所述结构坐标包括:起始行、起始列、终止行和终止列。由于与图结构相比,单元格在行方向的父子关系和单元格在列方向的父子关系更为简单。因此,利用本方案,能够减少确定单元格的结构坐标的计算量。
技术领域
本申请涉及图像处理领域,特别是涉及一种表格识别方法及装置。
背景技术
表格识别包括表格结构识别(Table Structure Recognition,TSR)和表格内容识别(Table Content Recognition,TCR)两部分。其中:结构识别是指从包括表格的图像中解析出每个单元格所在的行列位置和具体的包围框物理位置。内容识别指的是将每个单元格内的文本识别出来。通过结构识别和内容识别两个步骤,即可得到每个单元格的结构坐标和其中的文本内容,进而可将该表格转换为excel或word等格式,便于进一步人工校对和编辑,大大方便了表格信息的数字化处理流程。
目前识别表格结构的方法比较复杂,会耗费较多的计算资源。
因此,急需一种方案,能够解决上述问题。
发明内容
本申请所要解决的技术问题是如何简单的识别出表格结构,提供一种表格识别方法及装置。
第一方面,本申请实施例提供了一种表格识别方法,所述方法包括:
获取包括表格的待处理图像,并确定所述待处理图像中各个单元格的信息,所述各个单元格的信息,包括所述各个单元格的包围框的位置;
根据所述各个单元格的信息,得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格;
根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系,得到所述各个单元格的结构坐标,其中,所述结构坐标包括:起始行、起始列、终止行和终止列。
可选的,所述各个单元格的信息,还包括:
所述各个单元格内的文本的词嵌入向量,和/或,所述各个单元格的视觉特征。
可选的,所述根据所述各个单元格的信息,得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格,包括:
将所述各个单元格的信息输入机器学习模型,得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。
可选的,所述机器学习模型包括:
特征提取模块、第一决策模块和第二决策模块;
所述特征提取模块,用于对所述各个单元格的信息进行处理,得到特性序列;
所述第一决策模块用于根据所述特征序列,得到所述各个单元格在行方向上的父单元格;
所述第二决策模块用于根据所述特征序列,得到所述各个单元格在列方向上的父单元格。
可选的,所述特征提取模块为Transformer模型的编码器。
可选的,所述第一决策模块和第二决策模块均为自注意力self-attention模块。
可选的,所述根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系,得到所述各个单元格的结构坐标,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210018252.1/2.html,转载请声明来源钻瓜专利网。