[发明专利]一种表格解析方法及装置在审
申请号: | 201811162749.0 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110968990A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 李国文 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 解析 方法 装置 | ||
1.一种表格解析方法,其特征在于,包括:
获取待解析文书;其中,所述待解析文书包括至少一个表格;
将所述待解析文书进行文本编码处理,得到待解析文本;
生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所述待解析文本的文本结构;
确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系;
基于所述相对位置关系,确定所述待解析项对应的解析值。
2.根据权利要求1所述的表格解析方法,其特征在于,将所述待解析文书进行文本编码处理,得到待解析文本,包括:
对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落或一个表格段落作为一个段落;
将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段落,得到中间文本;
分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一列的开始位置和结束位置。
3.根据权利要求2所述的表格解析方法,其特征在于,生成与所述待解析文本对应的树型结构,包括:
将所述待解析文本作为根节点;
按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为每一行节点设置索引号;
将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设置索引号;
将每一表格中的列文本作为相应列节点的文本节点。
4.根据权利要求3所述的表格解析方法,其特征在于,确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系,包括:
获取关键字组;所述关键字组包括多个预设关键字;
采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的位置;
根据所述关键字组中的至少一个关键字确定待解析项;
确定所述待解析项所在的待解析表格;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行节点相同,则所述文本相对位置关系为行关系;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的列节点相同,则所述文本相对位置关系为列关系。
5.根据权利要求4所述的表格解析方法,其特征在于,基于所述相对位置关系,确定所述待解析项对应的解析值,包括:
若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解析值;
若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解析值。
6.一种表格解析装置,其特征在于,包括:
文书获取模块,用于获取待解析文书;其中,所述待解析文书包括至少一个表格;
编码处理模块,用于将所述待解析文书进行文本编码处理,得到待解析文本;
结构生成模块,用于生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所述待解析文本的文本结构;
关系确定模块,用于确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系;
解析模块,用于基于所述相对位置关系,确定所述待解析项对应的解析值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811162749.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种样本重测方法和样本分析装置
- 下一篇:企业筛选方法及装置