[发明专利]一种表格解析方法及装置在审
申请号: | 201811162749.0 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110968990A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 李国文 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 解析 方法 装置 | ||
本发明公开了一种表格解析方法及装置,获取待解析文书,将所述待解析文书进行文本编码处理,得到待解析文本,生成与所述待解析文本对应的树型结构,确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系,基于所述相对位置关系,确定所述待解析项对应的解析值。通过本发明实施例,可以在得到树型结构后,直接输入待解析项,即可以得到解析值,不需要人工解析,减少了人力。
技术领域
本发明涉及数据处理领域,更具体的说,涉及一种表格解析方法及装 置。
背景技术
文书中可以包括自然段落、表格等结构。
在对文书中的表格内容进行解析时是人工进行解析,如想知道表格中 解析项为姓名的解析值,是人工查找到表格中的姓名项,然后确定姓名对 应的解析值,如解析值可以是张三或李四等,这样一来,人工解析表格浪 费人力。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部 分地解决上述问题的一种表格解析方法及装置。
一种表格解析方法,包括:
获取待解析文书;其中,所述待解析文书包括至少一个表格;
将所述待解析文书进行文本编码处理,得到待解析文本;
生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所 述待解析文本的文本结构;
确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关 系;
基于所述相对位置关系,确定所述待解析项对应的解析值。
优选地,将所述待解析文书进行文本编码处理,得到待解析文本,包 括:
对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并 按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落 或一个表格段落作为一个段落;
将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段 落,得到中间文本;
分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所 述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段 落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每 一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一 表格的每一列的开始位置和结束位置。
优选地,生成与所述待解析文本对应的树型结构,包括:
将所述待解析文本作为根节点;
按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分 段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为 每一行节点设置索引号;
将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设 置索引号;
将每一表格中的列文本作为相应列节点的文本节点。
优选地,确定所述树型结构中待解析项和待解析项对应的解析值的相 对位置关系,包括:
获取关键字组;所述关键字组包括多个预设关键字;
采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的 位置;
根据所述关键字组中的至少一个关键字确定待解析项;
确定所述待解析项所在的待解析表格;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行 节点相同,则所述文本相对位置关系为行关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811162749.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种样本重测方法和样本分析装置
- 下一篇:企业筛选方法及装置