[发明专利]基于多源实体融合的知识图谱构建方法有效

专利信息
申请号: 201610583823.0 申请日: 2016-07-22
公开(公告)号: CN106250412B 公开(公告)日: 2019-04-23
发明(设计)人: 鲁伟明;戴豪;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F17/27
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静;邱启旺
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科:百度百科、互动百科,维基百科,并对数据做预处理,包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后,针对在同一个候选集里的页面,计算两两页面之间的特征,并训练分类器计算页面之间的相似度,并根据相似度构建权重图。最后,通过混合线性规划模型,约束权重图中顶点与顶点之间的关系,通过计算目标函数的最大值,得到顶点与顶点之间的连通性,将每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。本发明通过引入候选集,大大减小了问题的规模;同时又通过混合线性规划模型,提高了实体融合的准确率。
搜索关键词: 基于 实体 融合 知识 图谱 构建 方法
【主权项】:
1.一种基于多源实体融合的知识图谱构建方法,其特征在于,包括以下步骤:1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词;具体如下:1.1)提取百科标题的同义词,提取方式包括以下两种:a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对;模板人为定义,涵盖大部分同义词对出现模式;b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词;1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量;由消岐页面中出现的所有页面,提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体;M={ai∈εk|ai∈M≠aj∈M}1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词;通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词;给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt;Pt={a∈ε1,…,K|a.Title∈St}K为百科的总数;a.Title为页面a的标题;1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框,链接,目录,用户标签,并去除停用词和长度小于2的词;2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度;3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性;将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610583823.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top