[发明专利]用于扫描图像中的表格信息的数据结构生成在审

专利信息
申请号: 202010405509.X 申请日: 2020-05-14
公开(公告)号: CN112131920A 公开(公告)日: 2020-12-25
发明(设计)人: A·F·罗德瑞格兹;M·嘉芭拉尼;W·法尔鲁克 申请(专利权)人: 国际商业机器公司
主分类号: G06K9/00 分类号: G06K9/00;G06N3/08;G06N20/10
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 刘玉洁
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 扫描 图像 中的 表格 信息 数据结构 生成
【权利要求书】:

1.一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法,所述方法包括:

存储表示表格的扫描图像的图像数据;

处理所述图像数据以识别所述图像中的线和字符的位置;

根据所述位置映射信息单元格在所述图像中的定位,每个信息单元格包含一组所述字符;

对于每个单元格,根据所述定位来确定用于预定义的单元格属性集的单元格属性值,并将所述属性值作为输入提供给机器学习模型,所述机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格;

将预定义的规则应用于经预分类的单元格以识别角落数据单元格,所述角落数据单元格标记所述图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡,并且根据所述边缘区域中的单元格定位来定义行和列标题单元格;

对于所述行标题单元格集和所述列标题单元格集中的每一个,根据所述图像中这些单元格的相对定位,定义层次树,所述层次树指示所述标题单元格的层次结构;

使用所述层次树来生成将每个数据单元格映射到所述层次结构中对应的行和列标题单元格的数据结构;以及

存储所述数据结构以提供所述表格的可查询表示。

2.如权利要求1所述的方法,包括在存储所述数据结构之后,响应于接收到对于所述表格中的信息的请求:

从所述数据结构中提取与所请求的信息相对应的数据;以及

输出所提取的数据。

3.如权利要求1所述的方法,其中:

所述规则通过马尔可夫逻辑网络在与单元格有关的谓词上定义,所述马尔可夫逻辑网络具有预训练的规则权重,所述规则权重指示用于识别角落数据单元格的相应规则的重要性;以及

应用所述规则的步骤包括将所述马尔可夫逻辑网络应用于经预分类的单元格以识别所述角落数据单元格。

4.如权利要求1所述的方法,包括,对于所述行标题单元格集和所述列标题单元格集中的至少一个,通过以下方式定义所述层次树:

生成加权图,所述加权图包括表示所述图像中的所述标题单元格、标题单元格的相邻数据单元格和预定义的根单元格的节点,每个单元格的节点通过边与表示所述图像中的相邻单元格的至少一组所述节点相互连接,其中,每对节点之间的所述边具有权重,所述权重取决于这些节点所表示的单元格在所述图像中的相对位置;以及

根据所述权重,在表示数据单元格的每个节点和表示所述根单元格的节点之间选择最佳路径,以定义所述层次树的分支。

5.如权利要求4所述的方法,包括:

为所述标题单元格、所述相邻数据单元格和所述根单元格在所述图像中的定位定义Voronoi图;以及

生成所述加权图,所述加权图具有由所述Voronoi图中的每个数据单元格定位和所述根单元格定位之间的路径确定的边。

6.如权利要求1所述的方法,包括,对于所述行标题单元格集和列标题单元格集中的至少一个,

确定每个单元格是否具有预定的格式属性集中的任何格式属性;以及

如果所述标题单元格集包括具有不同格式属性的单元格,则根据所述单元格的所述格式属性来定义所述层次树。

7.如权利要求6所述的方法,其中,所述格式属性集包括粗体文本、斜体文本、缩进文本和大写文本中的至少一个。

8.如权利要求1所述的方法,其中,所述预定义的单元格属性集包括选自以下各项的多个属性:相邻单元格的数量;右侧相邻单元格的数量;上方相邻单元格的数量;右侧有一条线;左侧有一条线;上方有一条线;下方有一条线;以及所述单元格占据的面积。

9.如权利要求8所述的方法,其中,所述单元格属性集包括取决于单元格中的字符串的属性子集,所述属性子集选自:字符加粗;字符为斜体;数字字符的比例;字母字符的比例;以及非字母数字字符的比例。

10.如权利要求1所述的方法,其中,所述机器学习模型包括随机森林模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010405509.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top