[发明专利]基于多源实体融合的知识图谱构建方法有效

申请号：	201610583823.0	申请日：	2016-07-22
公开（公告）号：	CN106250412B	公开（公告）日：	2019-04-23
发明（设计）人：	鲁伟明;戴豪;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F17/27
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静;邱启旺
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科：百度百科、互动百科，维基百科，并对数据做预处理，包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后，针对在同一个候选集里的页面，计算两两页面之间的特征，并训练分类器计算页面之间的相似度，并根据相似度构建权重图。最后，通过混合线性规划模型，约束权重图中顶点与顶点之间的关系，通过计算目标函数的最大值，得到顶点与顶点之间的连通性，将每一个连通分量当作一个实体，从而获得描述同一个实体的所有页面。本发明通过引入候选集，大大减小了问题的规模；同时又通过混合线性规划模型，提高了实体融合的准确率。
搜索关键词：	基于实体融合知识图谱构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多源实体融合的知识图谱构建方法，其特征在于，包括以下步骤：1)预处理百科页面：提取百科标题的同义词，提取消岐页面，利用同义词的传递关系构建同义词组，所有同义词组形成同义词组集合，根据同义词组集合中每一个同义词组对应的页面构建候选集，用分词工具对百科页面的文本进行分词；具体如下：1.1)提取百科标题的同义词，提取方式包括以下两种：a)模板匹配：利用特定的模板去匹配每个页面的开头和摘要的第一句话，如果匹配成功，则得到同义词对；模板人为定义，涵盖大部分同义词对出现模式；b)链接重定向：通过页面中超链接跳转到另一个页面，如果另一个页面的标题和该超链接的文本不同，则认为这两个词是同义词；1.2)提取消岐页面：第k个百科表示为k最大值为3，其中a_i表示页面，n表示页面总数量；由消岐页面中出现的所有页面，提取消岐页面集合M，集合M里面的任意两两页面都不能表示同一个实体；M＝{a_i∈ε_k|a_i∈M≠a_j∈M}1.3)提取候选集：根据同义词的传递性，如果A和B互为同义词，A和C互为同义词，那么B和C也互为同义词；通过这种方式，得到同义词组S_t，所有同义词组S_t形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词；给定S_t,从所有百科源中找出标题属于S_t的页面，所有的这些页面构成候选集P_t；P_t＝{a∈ε_1,…,K|a.Title∈S_t}K为百科的总数；a.Title为页面a的标题；1.4)对百科页面的文本进行分词：对页面的5个域分词，包括摘要，信息框，链接，目录，用户标签，并去除停用词和长度小于2的词；2)通过步骤1)的分词结果，计算同一个候选集里的两两页面之间的特征，通过训练分类器为每一维特征赋上不同的权重，并利用这个分类器计算页面之间的相似度；3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图，利用混合线性规划模型，定义该模型目标函数，并计算目标函数的最大值，得到顶点与顶点之间的连通性；将权重图上的每一个连通分量当作一个实体，从而获得描述同一个实体的所有页面。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610583823.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于微软SharePoint平台的智能内链实现方法
下一篇：一种移动终端图像检索方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多源实体融合的知识图谱构建方法有效

专利文献下载