[发明专利]表格语义化解析系统技术在审
申请号: | 201910587279.0 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110321530A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 徐茂龙;杨鸿健;程晨 | 申请(专利权)人: | 南京智录信息科技有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格数据 标题信息 层次关系 方便检索 获取数据 解析系统 数据语义 语义化 文档 分解 | ||
1.一种表格语义化解析系统,其特征在于,包括以下步骤:
(1)利用预先完成的程序获取页面内的相关信息;
(2)针对表格前的文本内容,查找表格前附注;
(3)针对表格内的文本,查找表格内的表格列标题,表格行标题,表格分块行和表格内容并处理。
2.根据权利要求1所述的方法,其特征在于,针对表格前的文本内容,查找表格前附注的步骤包括:
(1)找出表格前的居中(包含连续的)和居右的文本;
(2)根据上述查找结果,如果没有居中文本则找出表格前的以冒号结尾的自然段落;
(3)针对上述查找结果,如果没有冒号结尾的自然段落或者居中文本,那么找到离表格最近的非居中和非居右的文本段落。
3.根据权利要求1所述的方法,其特征在于,针对表格内的文本,查找表格内的表格列标题,表格行标题,表格分块行和表格内容并处理的步骤包括:
(1)根据判断标准查找表格列标题,表格行标题,表格分块行和表格内容;
(2)针对同一列的列标题进行融合,得到这一列的列标题,然后将这些列标题分配给这一列的具体的数据。这里的同一列的定义是:列标题在横向的范围与此列有相交且这些列标题是连续的;
(3)针对表格行标题,将纵向区域有重合的单元格的列标题名称进行融合,将融合后的行标题名称分配给这一行的其他表格内容;
(4)针对上述融合过程,如果表格内存在表格分块行,那么表格分块行的内容也加入到列标题或者行标题前,但是分块行不切断表格的列标题。分块行之后的数据可以继续继承之前的行标题。
4.根据权利要求3所述的方法,其特征在于,根据判断标准查找表格列标题,表格行标题,表格分块行和表格内容的判断标准如下:
(1)表格列标题:表格每一列的具体数据名称;
(2)表格行标题:在没有列标题情况下,表格可能是横向的数据结构关系,一般左侧的为行标题,即行标题是这一行剩余的单元格的数据名称;
(3)表格分块行:表格内一个单元格占据一行的数据;
(4)表格内容:表格内其他正常数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京智录信息科技有限公司,未经南京智录信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910587279.0/1.html,转载请声明来源钻瓜专利网。