[发明专利]一种基于实体社区划分的百科知识图谱补全方法在审
申请号: | 202210274309.4 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114722123A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 杨旭华;金鑫;叶蕾;朱慷亮;陈昊楠;蒋智捷 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06Q50/00 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 舒良 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 社区 划分 百科 知识 图谱 方法 | ||
一种基于实体社区划分的百科知识图谱补全方法,首先根据百科知识图谱原始结构信息计算出实体的社区,接着计算实体的度相关性,在同一个社区内根据实体度相关性计算实体的局部重要性,最后联合实体社区信息、实体局部重要性,以及百科知识图谱嵌入模型计算出百科知识图谱实体嵌入向量和关系嵌入向量,通过计算头实体、关系和尾实体在残缺三元组中距离评分,得到百科知识图谱补全结果。本发明考虑了百科知识图谱的社区信息和实体重要性信息,准确性较高,补全效果好。
技术领域
本发明涉及知识图谱领域,特别是指一种基于实体社区划分的百科知识图谱补全方法。
背景技术
随着互联网技术的持续发展,人们对数据的需求达到前所未有的高度。百科数据做为人们获取信息的重要渠道,能够满足用户对信息需求的同时带来更高的专业性。丰富的百科知识图谱数据构建了错综复杂的信息网络,利用这些数据能够给我们生活带来便利,更加准确和专业地对知识进行获取。
百科知识图谱补全是指对百科知识图谱已知的内部结构信息进行提取去预测缺失的实体或关系信息。百科知识图谱补全主要是基于百科知识图谱结构特性以及实体或关系属性,给出缺失实体的概率排名,选取概率高的实体作为三元组补全的结果。由于百科知识图谱结构庞大且类型复杂,百科知识图谱补全算法的精确度就显得尤为重要。由于百科知识图谱的补全过程中,实体社区信息起到了重要的补充作用,在补全的过程中同时考虑社区信息就显得非常重要。
发明内容
为了克服现有百科知识图谱补全方法对缺失实体及关系预测准确度较低、对外部信息过分需求的严重不足,更全面的获取百科知识图谱的结构信息,提升补全算法的准确性,本发明提出了一种基于实体社区划分的百科知识图谱补全方法。
本发明解决其技术问题所采用的具体步骤是:
一种基于实体社区划分的百科知识图谱补全方法,包括如下步骤:
步骤1:具有N个实体的百科知识图谱由K个三元组(h,r,t)构成,h∈E,r∈R,t∈E,h表示头实体,t表示尾实体,r表示关系,E={e1,…ei,…,eN}表示实体集合,R={r1,…ri,…,rM}表示关系集合,M表示实体之间关系的数量;
步骤2:将知识图谱中的实体和关系分别看作是节点和边,把知识图谱映射为一个网络G(V,L),其中V是节点集合,一个节点对应一个实体;L是边集合,一条边对应一个关系,每条边的初始权值为1;
步骤3:把每个实体所对应的节点看做成一个独立的社区,对任意节点i,将其所在社区与其任一邻居节点j所在社区合并,计算网络的模块度
如果模块度增加则保留此次合并;否则取消此次合并;遍历网络所有节点,重复此步骤,获取网络社区结构;其中,m为网络中边的总数量,ki,kj分别表示所有指向节点i和节点j的连边权重之和,A是网络G的邻接矩阵,Ai,j表示节点i,j之间边的权重值;Ui是节点i所在的社区,Uj是节点j所在的社区,若节点i和节点j在同一个社区中,则δ(Ui,Uj)=1,否则为0;
步骤4:把每个社区看成是一个新节点,如果分别属于两个社区的节点之间存在连边则相应两个新节点之间存在一条连边;一个社区内部连边权值之和作为相应新节点自环的权值;两个新节点之间连边的权值为两个相应社区之间连边权值之和,将原网络凝聚成一个新加权网络Gnew(V′,L′),其中,V′表示新网络的节点集合,L′是新网络的边集合;对于新网络Gnew,重复执行步骤3和步骤4,直到网络模块度不再增大,从而得到最终的实体社区结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210274309.4/2.html,转载请声明来源钻瓜专利网。