[发明专利]基于多源实体融合的知识图谱构建方法有效
申请号: | 201610583823.0 | 申请日: | 2016-07-22 |
公开(公告)号: | CN106250412B | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 鲁伟明;戴豪;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科:百度百科、互动百科,维基百科,并对数据做预处理,包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后,针对在同一个候选集里的页面,计算两两页面之间的特征,并训练分类器计算页面之间的相似度,并根据相似度构建权重图。最后,通过混合线性规划模型,约束权重图中顶点与顶点之间的关系,通过计算目标函数的最大值,得到顶点与顶点之间的连通性,将每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。本发明通过引入候选集,大大减小了问题的规模;同时又通过混合线性规划模型,提高了实体融合的准确率。 | ||
搜索关键词: | 基于 实体 融合 知识 图谱 构建 方法 | ||
【主权项】:
1.一种基于多源实体融合的知识图谱构建方法,其特征在于,包括以下步骤:1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词;具体如下:1.1)提取百科标题的同义词,提取方式包括以下两种:a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对;模板人为定义,涵盖大部分同义词对出现模式;b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词;1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量;由消岐页面中出现的所有页面,提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体;M={ai∈εk|ai∈M≠aj∈M}1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词;通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词;给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt;Pt={a∈ε1,…,K|a.Title∈St}K为百科的总数;a.Title为页面a的标题;1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框,链接,目录,用户标签,并去除停用词和长度小于2的词;2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度;3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性;将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610583823.0/,转载请声明来源钻瓜专利网。