[发明专利]一种面向共指消解的多语义网实体对比表自动生成方法有效

申请号：	201510662906.4	申请日：	2015-10-14
公开（公告）号：	CN105260457B	公开（公告）日：	2018-07-13
发明（设计）人：	胡伟;仇宏磊;瞿裕忠	申请（专利权）人：	南京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	苏州威世朋知识产权代理事务所(普通合伙) 32235	代理人：	杨林洁
地址：	210093***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	消解关键属性对比表语义网用户参与自动生成语义文本信息合并可视化冗余度冗余准确率可选集合重复应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向共指消解的多语义网实体对比表自动生成方法，包括以下步骤：给定一组候选共指实体，首先根据结构和文本信息来合并这组实体中语义相近的属性。接下来，基于合并后的属性及实体在属性上的取值分布对属性评分，并计算待选属性与已选属性的冗余度，从中挑选出一个高评分且低冗余的属性加入关键属性集合，重复本步骤直到选完预定数目的属性或无属性可选。最后，基于关键属性组织实体在关键属性上的取值，生成可视化实体对比表供用户参与实体共指消解。应用本发明能够提高用户参与多语义网实体共指消解的准确率和效率。

技术领域

本发明涉及语义网，尤其涉及一种面向共指消解的多语义网实体对比表自动生成方法。

背景技术

语义网（Semantic Web）是万维网的一个重要发展方向，为万维网上的知识表示、推理、交换和复用提供了基础。语义网使用一组“属性–取值”来描述其中的实体（entity，以下“实体”均指语义网实体），可以表示为集合{<p_i,v_i>}n i=1，其中p_i表示某个属性，v_i表示p_i的取值。例如万维网的发明人Tim Berners-Lee，其姓名在语义网数据源DBpedia中被表示为<dbpedia:name, “Tim Berners- Lee”>。通常，一个实体的描述包含数十条乃至上百条这样的“属性–取值”，而且一个属性也可以有多个不同取值（例如一个人的朋友可以有许多）。随着语义网的快速发展，由不同机构和个人发布的语义网数据已经达到百亿数量级规模，如此大规模、异构的数据给语义网的研究和应用带来了巨大挑战。

语义网中大量不同来源的实体可能指称现实世界中的相同事物，这种现象常被称为实体共指（entity co-reference）。同时，不同数据源发布的实体所用属性不同，取值也有差异，这更加剧了语义网数据的复杂程度，给跨数据源语义网知识的表示、推理和集成造成了困难。为解决这一问题，早期完全依赖人工判别实体共指的方法需要消耗大量的时间和精力，面对大规模数据已不可行。语义网领域的研究者提出了多种全自动的实体共指消解（co-reference resolution）方法，但是这些方法目前尚不够准确，并且灵活性不足。最新研究进展则将人工判别和机器消解相结合，通过机器自动计算得到候选共指实体并呈现给用户，由用户做出判断并反馈结果。这种半自动方法不但节约了宝贵的人力资源，而且能够有效利用人类丰富的背景知识，提高实体共指消解的准确率。同时，机器在这个不断反馈的过程中，通过训练可以进一步优化实体共指消解的准确率。

在上述过程中，用户参与实体共指消解的一个关键在于如何能够在保证准确率的前提下，尽可能减少用户的参与，或尽可能减轻用户参与时的负担，使实体共指消解的效率更高、成本更低。根据调研，现有考虑用户参与实体共指消解的方法多数只为用户提供未经加工筛选的实体描述，用户面对的往往是杂乱无章、难以理解的大量属性和取值。而查找对于实体共指消解有关键作用的属性需要花费用户大量的时间，甚至一些隐藏属性会被忽略，从而导致用户做出不自信或错误的判断。另有少数方法为用户选取实体描述，形成实体摘要，但用户一次只能观察单个（如Sig.ma）或一对（如C3D+P）实体描述，摘要信息的对比性不足。当用户需要判断来自多于两个数据源的候选共指实体时，往往不得不在多个实体间进行来回切换，并在脑海中记住之前的实体描述，特别当实体含有相似属性和取值时，用户更难以快速准确判断。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510662906.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向共指消解的多语义网实体对比表自动生成方法有效

专利文献下载