[发明专利]一种对文本进行无表格线切表的方法及装置有效

申请号：	201811304121.X	申请日：	2018-11-03
公开（公告）号：	CN109284495B	公开（公告）日：	2023-02-07
发明（设计）人：	李鹏辉;竺晨曦;邱锡鹏	申请（专利权）人：	上海犀语科技有限公司
主分类号：	G06F40/18	分类号：	G06F40/18;G06F40/205
代理公司：	上海乐泓专利代理事务所(普通合伙) 31385	代理人：	苏杰
地址：	200082 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本进行表格线切表方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种对文本进行无表格线切表的方法，包括：对文本进行切行，并获得每一个文本行的行特征信息和第一个文本行的行内容语义信息；根据行特征信息与行内容语义信息以得到切表模型的训练数据；通过切表模型将在文本中切出无表格线的表格。实施上述方法的装置，包括文字坐标获取模块、文本行切行模块、文本行解析模块、训练数据获取模块与切表模型。本发明能代替规则方法，更加便捷、准确地进行无表格线表的切表任务，且不因无表格线表格的样式变换而影响效果，适用性高，能极大提升无表格线切表任务的准确率、成本和效率。

技术领域

本发明涉及一种文本处理方法，尤其是一种对文本进行无表格线切表的方法及装置。

背景技术

目前，对于有表格线的表格可以通过线框的信息很容易的判断出表格的范围。但对于无表格线的表格，必须根据图像(表格形态)和语义(文本内容)两方面共同建模判断是否属于表格。这些判断表格的方式，很难通过一整套规则完备的写出来。

发明内容

针对上述问题中存在的不足之处，本发明提供一种能够获得精确的无表格线表格范围的一种对文本进行无表格线切表的方法及装置。

为实现上述目的，本发明提供一种对文本进行无表格线切表的方法，包括以下步骤：

步骤1、对文本进行切行，并获得每一个文本行的行特征信息和第一个文本行的行内容语义信息；

步骤2、根据行特征信息与行内容语义信息以得到切表模型的训练数据；

步骤3、通过切表模型将在文本中切出无表格线的表格。

上述的一种对文本进行无表格线切表的方法，其中，在步骤1中，包括以下子步骤：

步骤11、获得文本中的文字坐标，并根据文字坐标对文本进行切行，以形成多个文本行；