[发明专利]一种基于多知识库的表格实体链接方法有效
申请号: | 201610920031.8 | 申请日: | 2016-10-21 |
公开(公告)号: | CN106503148B | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 吴天星;漆桂林;刘太云;严晟嘉;朴智新;许亮;王瑞明 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36;G06N5/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210088 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多知识库的表格实体链接方法,主要用于解决表格中的实体链接问题。本发明首先对于给定表格中每个单元格里的字符串生成候选实体,这些候选实体抽取自给定的知识库。然后,提出一种通用的基于图的概率传播算法对每个单元格里的字符串对应的候选实体进行排序,该方法可作用于任意单一的知识库。再根据基于不同单一知识库的候选实体排序的结果,利用源自不同知识库中的实体间的等价关系,对每个单元格里的字符串所对应的抽取自不同知识库中的已排序候选实体进行划分。最后使用三种启发式规则以最终确定每个单元格里的字符串所应该链接的存在于不同知识库中的实体,从而完成基于多知识库的表格实体链接的任务。 | ||
搜索关键词: | 一种 基于 知识库 表格 实体 链接 方法 | ||
【主权项】:
1.一种基于多知识库的表格实体链接方法,其特征在于,该方法包括如下步骤:1)每次从知识库集合K={KB1,KB2,…,KBz…,KBn}中选定一个单一知识库KBz,按照如下方法从所述单一知识库KBz中抽取候选实体,构建候选实体列表,最终得到每个单一知识库构建的候选实体列表:利用同义词典BabelNet与字符串匹配规则,将表格T中所有单元格里的字符串s生成源自单一知识库KBz的候选实体,每个字符串s对应多个候选实体;利用基于图的概率传播算法对表格T中每个字符串s所对应的候选实体进行排序,得到候选实体列表;2)将每个字符串s所对应的n个候选实体列表中的所有实体划分成多个实体集合,这些实体集合可分为两类:第一类中的每个集合里的实体数量num∈{2,3,…,n},每个集合中的实体分别源自不同的候选实体列表,且这些实体两两之间均存在等价关系;第二类中的每个集合中的实体数量均为1,每个集合中的实体仅源自一个候选实体列表且与源自其他候选实体列表中的每个实体之间均不存在等价关系;3)针对每个字符串所对应的多个不同的实体集合,使用三种启发式规则为每个字符串s选择一个实体集合中的所有实体作为该字符串s所应该链接的存在于不同知识库中的实体,从而完成表格实体链接,所述三种启发式规则分别为:规则一:如果在字符串s对应的多个实体集合中,存在一个集合Set,与其他实体集合相比,Set中所有实体在各自对应的候选实体列表中的排名的平均值ar与最高值hr均最高,且集合Set中实体的数量num不小于所有给定知识库的数量的一半,则选择集合Set中的所有实体为s所应该链接的存在于不同知识库中的实体;规则二:如果在字符串s对应的多个实体集合中,存在g个集合,g>1,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar相等,最高值hr也相等,且与其他实体集合相比,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar与最高值hr均最高,此外这g个集合中每个集合里实体的数量均不小于所有给定知识库的数量的一半,则随机选择这g个集合中的一个集合里的所有实体为s所应该链接的存在于不同知识库中的实体;规则三:如果在字符串s对应的每个实体集合中实体的数量均小于所有给定知识库的数量的一半,则取出在字符串s所对应的n个候选实体列表,将每个列表中排名第一的实体作为s所应该链接的存在于不同知识库中的实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610920031.8/,转载请声明来源钻瓜专利网。