[发明专利]面向Web表格的成对实体联合消歧方法在审

专利信息
申请号: 202110720148.2 申请日: 2021-06-28
公开(公告)号: CN113361283A 公开(公告)日: 2021-09-07
发明(设计)人: 吴天星;李林;漆桂林 申请(专利权)人: 东南大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/295;G06K9/62
代理公司: 南京众联专利代理有限公司 32206 代理人: 许小莉
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 web 表格 成对 实体 联合 方法
【说明书】:

发明公开了面向Web表格的成对实体联合消歧方法,用于解决面向Web表格的实体链接任务。面向Web表格的实体链接任务是将Web表格中的实体提及无歧义的链接到知识库中的实体。本发明针对表格特点设计成对实体联合消歧方法,迭代的对置信度最高的一对实体提及联合消歧,逐步实现整个表格中实体提及的全部消歧。置信度计算方法全面考虑了多种信息,包括实体提及和候选实体的相似度、链接实体之间的一致性以及表格中行、列语义一致性。在算法迭代过程中,已链接的实体具有很高的置信度,能够为后续链接工作提供有效的辅助信息,从而实现高质量的联合消歧。

技术领域

本发明涉及面向Web表格的成对实体联合消歧方法,属于知识图谱技术领域属于知识 图谱技术领域。

背景技术

Web表格以一种结构化的形式将数据组织起来,提供了高质量高密度的信息。据估计, Web中包含了141亿个表格,其中关联表格约1.54亿个。为了能够利用这些由价值的数据, 需要让计算机能够从语义层面对这些表格进行理解。表格进行实体链接则是实现表格理解的 有效手段。

在表格中进行实体链接需要将表格单元格中的实体提及和知识图谱中对应的实体进行 关联。一个有效的表格实体链接系统,应该能够根据实体提及在表格中的上下文信息将实 体提及无歧义的链接到知识图谱中对应的实体。不同于文本中实体提及的上下文结构统一, 表格中实体提及的上下文在单元格位置、行、列角度等形式上各有不同。表格实体链接方 法首先需要从表格中识别出实体提及并为这些实体提及生成候选实体,这部分工作通常会 利用一些启发式的方法寻找尽可能全面的实体提及和候选实体。随后,借助于实体提及在 表格中的上下文以及链接实体之间的关系从侯选实体中挑选正确合适的实体进行链接,实 现候选实体的消歧。

实体提及的识别和候选实体的生成,通常可以利用工程方法取得较好的结果。而侯选 实体消歧是表格实体链接的主要困难,该任务需要设计一种排序模型,计算出实体提及与 不同候选实体之间的相似度。计算相似度时,不仅要考虑实体提及与候选实体之间的语义 相似度,还要考虑链接实体之间的相关关系。利用链接实体之间相关关系的实体消歧方法, 被称作联合消歧方法。当前很多工作在联合消歧时,会在所有实体提及的侯选实体集合中 选择尽可能相关的实体,实现链接实体的相关性以及实体提及与链接实体之间相似度的最 大化。联合消歧方法取得了不错的消歧效果,但存在假设太强的缺点,不完全适合现实中 的知识图谱和Web表格。同一行中非主键列的实体和主键列的实体往往具有很强的相关关 系,但和其他列并不一定具有较高的相关性。同时受到知识图谱的不完全性影响,同一列 中链接的实体也可能不特别相关。本发明针对当前联合消歧算法的缺点提出一种成对实体 联合消歧算法,依次对表格中置信度最高的一对实体提及进行联合消歧,在保证高质量联 合消歧效果的同时,降低引入噪声的概率。

发明内容

技术问题:针对表格的结构特点以及当前联合消歧方法的不足,设计一种成对实体链 接方法。这里的成对实体链接指的是:依次对表格中置信度最高的一对实体提及进行联合 消歧,在保证高质量联合消歧效果的同时,还降低引入噪声的概率。利用已链接的实体为 后续实体链接过程提供更加丰富、准确的上下文信息,进而在真实Web表格中实现更好的 实体链接效果。

技术方案:

本发明的成对实体联合消歧方法通过以下步骤执行:

1)将Web表格中同行同列的实体提及两两组合生成所有的实体提及二元组。

2)计算所有实体提及二元组进行链接时的置信度,并将置信度最高的一对实体提及与 各自实体进行链接,同时删除这对实体提及的其他候选实体。

3)更新表格中不同实体提及之间的置信度值。

4)迭代所述步骤2)和3),直到表格中所有实体提及完成链接。

本发明的优选方案中,所述步骤2)中,按照如下方式进行置信度计算:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110720148.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top