[发明专利]一种面向非结构化表格文档的实体与关系抽取方法有效
申请号: | 202010021995.5 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111274327B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 张元鸣;李梦妮;高天宇;肖刚;程振波;陆佳炜 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 结构 表格 文档 实体 关系 抽取 方法 | ||
1.一种面向非结构化表格文档的实体与关系抽取方法,其特征在于,所述方法包括以下步骤:
1)非结构化表格文档划分,过程如下:
表格中的标题区指数据的性质和类别,数据区是指标题区对应的实际取值,根据表格中标题区与数据区的对应关系,将表格文档划分为单值表格和多值表格,其特征为:
1.1)单值表格:标题区与数据区是一对一关系,且相邻;
1.2)多值表格:标题区与数据区是一对多关系,标题区后紧跟着是连续的标题区,标题区个数与每行的数据区个数相同,且一一对应;
根据以上特征,将文档切分为离散的单值表格和多值表格;
2)单值表格知识抽取,过程如下:
利用标题区与数据区的位置特征,从单值表格中抽取实体、关系、属性及属性值并组织成三元组集合形式,输入为单值表格文档,输出为结构化三元组集合,步骤如下:
(2.1):若表格文档的格式是PDF,则利用PDFelement软件将PDF格式转换成word格式;
(2.2):利用Apache poi插件按单元格的行列值大小依次对表格进行解析,定位出所有标题区的行列坐标,设标题区的坐标为(x,y),那么其对应的数据区的坐标为(x,y+1);
(2.3):抽取出标题区及其数据区,组织成二元组集合;
(2.4):对二元组集合进行实体、关系、属性及属性值的自动标注,标注规则如下:
2.4.1)若标题区含有“姓名”、“名称”、“人”的指代命名实体的字符串,则对应的数据区被标注为实体,否则标注为属性值;
2.4.2)若关于实体A的表格中有标题区X,且对应的数据区B被标注成实体,则X被标注为实体A与实体B的关系,但若数据区B被标注为属性值,则X被标注为实体A的属性;
(2.5):完成实体、关系、属性及属性值的标注后,按照(实体,关系,实体)或(实体,属性,属性值)的形式组织这些知识,得到最终的三元组集合;
3)多值表格知识抽取,过程如下:
利用标题区与数据区的位置特征,从多值表格中抽取实体、关系、属性及属性值并组织成三元组集合形式,输入为多值表格文档,输出为结构化三元组集合,
步骤如下:
(3.1):若表格文档的格式是PDF,则利用PDFelement软件将PDF格式转换成word格式;
(3.2):利用Apache poi插件按单元格的行列值大小依次对表格进行解析,定位出所有标题区的行列坐标,设标题区的坐标为(x,y)、(x,y+1)、(x,y+2),那么其对应的数据区的第一条数据坐标为(x+1,y)、(x+1,y+1)、(x+1,y+2),第二条数据坐标为(x+2,y)、(x+2,y+1)、(x+2,y+2),以此类推;
(3.3):根据数据区字符串是否包含空行、序号或固定格式来执行不同的操作:
3.3.1)若不包含空行、序号或固定格式,表明数据区是一个独立的字符串,可直接按照标题区和数据区的坐标一一对应得到二元组集合;
3.3.2)若包含空行、序号或固定格式,表明数据区不是独立的字符串,也就是说两条数据在进行单元格解析时错误的被当成一条,此时需对该数据区进行字符串语义分割并按照顺序进行自动编号,语义分割规则如下:
3.3.2.1)若字符串包含空行,则第一条数据应从第一个字符开始截取至空行,第二条数据从空行开始截取至下一空行或字符串末尾;
3.3.2.2)若字符串包含“1、”,“2、”的序号,则第一条数据应截取至“2、”前一个字符,第二条数据从“2、”开始截取至下一标号开始的字符或字符串末尾;
3.3.2.3)若字符串中包含固定格式,则根据该格式利用正则表达式将字符串分割成若干个数据区;
(3.4):抽取出标题区及其数据区,组织成二元组集合;
(3.5):对二元组集合进行实体、关系及属性的自动标注,标注规则如下:
3.5.1)若标题区含有“姓名”、“名称”、“人”的指代命名实体的字符串,则对应的数据区被标注为实体,否则标注为属性值;
3.5.2)对两个实体进行关系标注时,先抽取出同时包含指代两个实体的字符串,定位每个实体在字符串中的位置,截取两个实体间的字符串,将其标注为实体间的关系;
3.5.3)若关于实体A的表格中有标题区X,且对应的数据区B被标注为属性值,则X被标注为实体A的属性;
(3.6):完成实体、关系、属性及属性值的标注后,按照(实体,关系,实体)或(实体,属性,属性值)的形式组织这些知识,得到最终的三元组集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021995.5/1.html,转载请声明来源钻瓜专利网。