[发明专利]一种表格解析方法及装置在审

申请号：	201811162749.0	申请日：	2018-09-30
公开（公告）号：	CN110968990A	公开（公告）日：	2020-04-07
发明（设计）人：	李国文	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F40/126	分类号：	G06F40/126
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种表格解析方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种表格解析方法及装置，获取待解析文书，将所述待解析文书进行文本编码处理，得到待解析文本，生成与所述待解析文本对应的树型结构，确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系，基于所述相对位置关系，确定所述待解析项对应的解析值。通过本发明实施例，可以在得到树型结构后，直接输入待解析项，即可以得到解析值，不需要人工解析，减少了人力。

技术领域

本发明涉及数据处理领域，更具体的说，涉及一种表格解析方法及装置。

背景技术

文书中可以包括自然段落、表格等结构。

在对文书中的表格内容进行解析时是人工进行解析，如想知道表格中解析项为姓名的解析值，是人工查找到表格中的姓名项，然后确定姓名对应的解析值，如解析值可以是张三或李四等，这样一来，人工解析表格浪费人力。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种表格解析方法及装置。

一种表格解析方法，包括：

获取待解析文书；其中，所述待解析文书包括至少一个表格；

将所述待解析文书进行文本编码处理，得到待解析文本；

生成与所述待解析文本对应的树型结构；其中，所述树型结构表征所述待解析文本的文本结构；

确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系；

基于所述相对位置关系，确定所述待解析项对应的解析值。

优选地，将所述待解析文书进行文本编码处理，得到待解析文本，包括：

对所述待解析文书进行分段操作，得到多个具有先后顺序的段落，并按照段落的先后顺序，为每个所述段落设置索引号；其中，一个自然段落或一个表格段落作为一个段落；

将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段落，得到中间文本；

分别对所述中间文本中的不同的预设位置添加相应的标签；其中，所述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一列的开始位置和结束位置。

优选地，生成与所述待解析文本对应的树型结构，包括：

将所述待解析文本作为根节点；

按照段落之间的先后顺序，将每一段落分别作为所述根节点的一个分段节点，并依据每个段落对应的索引号设置对应的分段节点的索引号；

将每一表格中的每一行作为相应表格对应的分段节点的行节点，并为每一行节点设置索引号；

将每一表格中的每一列作为相应行节点的列节点，并为每一列节点设置索引号；

将每一表格中的列文本作为相应列节点的文本节点。

优选地，确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系，包括：

获取关键字组；所述关键字组包括多个预设关键字；

采用正则表达式规则，在所述树型结构中查找每一预设关键字所在的位置；

根据所述关键字组中的至少一个关键字确定待解析项；

确定所述待解析项所在的待解析表格；

若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行节点相同，则所述文本相对位置关系为行关系；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司，未经北京国双科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811162749.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种表格解析方法及装置在审

专利文献下载